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内 容 提要 


本 书 作 为 算法 领域 经 典 的 参考 书 ， 全 面 介 绍 了 关于 算法 和 数据 结构 的 必 备 知识 ， 并 特别 针对 排序 、 
搜索 、 图 处 理 和 字符 串 处 理 进行 了 论述 。 第 4 版 具体 给 出 了 每 位 程序 员 应 知 应 会 的 50 个 算法 ， 提 供 了 实 
际 代码 ， 而 且 这 些 Java 代码 实现 采用 了 模块 化 的 编程 风格 ， 读 者 可 以 方便 地 加 以 改造 。 配 套 网 站 提供 了 
本 书 内 容 的 摘要 及 更 多 的 代码 实现 、 测 试 数据 、 练 习 、 教 学 课件 等 资源 

本 书 适合 用 做 大 学 教材 或 从 业者 的 参考 书 
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译 者 序 


在 计算 机 领域 ， 算 法 是 一 个 永恒 的 主题 。 即 使 仅 把 算法 入 门 方面 的 书 都 摆 出 来 ， 国 内 外 的 加 起 
来 怕 是 能 铺 满 整个 天 安 门 广场 。 在 这 些 书 中 ， 有 几 本 尤其 与 众 不 同 ， 本 书 就 是 其 中 之 一 。 


本 书 是 学 生 的 良 师 。 在 翻译 的 过 程 中 我 曾 无 数 次 感叹 ，“ 要 是 当年 我 能 拥有 这 本 书 那 该 多 好 !" 
应 该 说 本 书 是 为 在 校 学 生 量 身 打 造 的 。 没 有 数学 基础 ? 没关系 ， 只 要 你 在 高 中 学 过 了 数学 归纳 法 ， 那 
么 书 中 95% 以 上 的 数学 内 容 你 者 可 以 看 得 懂 ， 更 何况 书 中 还 辅 以 大 量 图 例 。 没 学 过 编程 ? 没关系 ， 第 
1 章 会 给 大 家 介绍 足够 多 的 Java 知 识 ， 即 使 你 不 是 计算 机 专业 的 学 生 ， 也 不 会 遇 到 困难 。 整 本 书 的 内 
容 编 排 循序 渐进 ， 由 易 到 难 ， 前 后 呼应 ， 足 见 作 者 的 良 苦 用 心 。 没 有 比 本 书 更 专业 的 算法 教科 书 了 。 


本 书 是 老师 的 好 帮手 。 如 果 老 师 们 还 只 能 照 本 宜 科 ， 只 能 停留 在 算法 本 身 一 二 三 四 的 阶段 ， 
那 就 已 经 大 大 落后 于 这 个 时 代 了 。 算 法 并 不 仅仅 是 计算 的 方法 ， 探 究 算 法 的 过 程 反映 出 的 是 我 们 对 
这 个 世界 的 认 知 方法 : 是 唯 唯 诺 诺 地 将 课本 当做 圣经 ， 还 是 通过 “实验 一 失败 一 再 实验 ”循环 的 狂 
炼 ? 数学 是 保证 ， 数 据 是 验证 。 本 书 通过 各 种 算法 ， 从 各 个 角度 ， 多 次 说 明了 这 个 道理 ， 这 也 正 是 
第 1 章 是 全 书 内 容 最 多 的 一 章 的 原因 。 和 希望 每 一 位 读者 都 不 要 错过 第 1 章 。 无 论 你 有 没有 编程 基础 ， 
都 会 从 中 得 到 有 益 的 启示 。 


本 书 是 程序 员 的 益友 。 在 工作 了 多 年 之 后 ， 快 速 排序 、 震 夫 曼 编码 、KMP 等 曾经 熟悉 的 概念 在 你 
脑 中 是 不 是 已 经 凋零 成 了 一 个 个 没有 内 涵 的 名 词 ? 是 时 候 重新 抬 起 它们 了 。 无 论 是 为 手头 的 工作 寻找 
线索 ， 还 是 为 下 一 份 工作 努力 准备 ， 这 些 算法 基础 知识 都 是 你 不 能 跳 过 的 。 本 书 强调 软件 工程 中 的 最 
佳 实践 ， 特 别 适 合 已 有 工作 经 验 的 程序 员 朋友 。 所 有 的 算法 都 是 先 有 API， 再 有 实现 ， 之 后 是 证 明 ， 最 
后 是 数据 。 这 种 先 接口 后 实现 、 强 调 测试 的 做 法 ， 无 疑 是 在 工作 中 换 候 滚 打 多 年 的 程序 员 最 熟悉 的 。 


本 书 也 有 一 些 遗 鲈 ， 比 如 没有 介绍 动态 规划 这 样 重要 的 思想 。 但 是 环 不 掩 玉 ， 它 仍然 是 最 好 的 
入门 级 算法 书 。 我 强烈 地 希望 能 够 把 本 书 翻译 成 中 文 ， 但 同时 也 诚 乙 诚 恺 ， 如 履 薄 关 ， 担 心 自己 的 
水 平 不 足以 准确 传达 原文 的 意思 。 翻 译 的 过 程 虽然 辛苦 ， 但 我 觉得 非常 值得 。 感 谢 人 民 上 邮电 出 版 社 
图 灵 公司 给 了 我 这 个 机 会 ， 感 谢 编辑 和 审 稿 专家 的 细心 检查 。 同 时 感谢 我 的 妻子 朱 天 的 全 力 支持 。 
译 者 水 平 有 限 ，bug 在 所 难免 ， 还 请 读者 批评 指正 。 


谢 路 云 
2012.9.17 


了 中 


前 


本 书 力图 研究 当今 最 重要 的 计算 机 算法 并 将 一 些 最 基础 的 技能 传授 给 广大 求知 者 。 它 适合 用 做 
计算 机 科学 进 阶 教材 ， 面 向 已 经 熟悉 了 计算 机 系统 并 掌握 了 基本 编程 技能 的 学 生 。 本 书 也 可 用 于 自 
学 ， 或 是 作为 开发 人 员 的 参考 手册 ， 因 为 书 中 实现 了 许多 实用 算法 并 详尽 分 析 了 它们 的 性 能 特点 和 
用 途 。 这 本 书 取材 广泛 ， 很 适合 作为 该 领域 的 人 门 教材 。 


算法 和 数据 结构 的 学 习 是 所 有 计算 机 科学 教学 计划 的 基础 ， 但 它 并 不 只 是 对 程序 员 和 计算 机 
系 的 学 生 有 用 。 任 何 计算 机 使 用 者 都 希望 计算 机 能 运行 得 更 快 一 些 或 是 能 解决 更 大 规模 的 问题 。 本 
书 中 的 算法 代表 了 近 50 年 来 的 大 量 优秀 研究 成 果 ， 是 人 们 工作 中 必 备 的 知识 。 从 物理 中 的 N 体 模拟 
问题 到 分 子 生物 学 中 的 基因 序列 问题 ， 我 们 描述 的 基本 方法 对 科学 研究 而 言 已 经 必 不 可 少 ; 从 建筑 
建 模 系统 到 模拟 飞行 器 ， 这 些 算法 已 经 成 为 工程 领域 极其 重要 的 工具 ; 从 数据 库 系统 到 互联 网 搜索 
引擎 ， 算 法 已 成 为 现代 软件 系统 中 不 可 或 缺 的 一 部 分 。 这 仅 是 几 个 例子 而 已 ， 随 着 计算 机 应 用 领域 
的 不 断 扩张 ， 这 些 基础 方法 的 影响 也 会 不 断 扩大 。 


在 开始 学 习 这 些 基础 算法 之 前 ， 我 们 先 要 熟悉 全 书 中 都 将 会 用 到 的 栈 、 队 列 等 低级 抽象 的 数据 
类 型 。 然 后 依次 研究 排序 、 搜 索 、 图 和 字符 串 方面 的 基础 算法 。 最 后 一 章 将 会 从 宏观 角度 总 结 全 书 
的 内 容 。 


独特 之 处 


本 书 致力 于 研究 有 实用 价值 的 算法 。 书 中 讲解 了 多 种 算法 和 数据 结构 ， 并 提供 了 大 量 相关 的 信 
息 ， 读 者 应 该 能 有 信心 在 各 种 计算 环境 下 实现 、 调 试 并 应 用 它们 。 本 书 的 特点 涉及 以 下 几 个 方面 。 


算法 书 中 均 有 算法 的 完整 实现 ， 并 讨论 了 程序 在 多 个 样 例 上 的 运行 状况 。 书 中 的 代码 都 是 可 
以 运行 的 程序 而 非 伪 代码 ， 因 此 非常 便于 投入 使 用 。 书 中 程序 是 用 Java 语 言 编写 的 ， 但 其 编程 风格 
方便 读者 使 用 其 他 现代 编程 语言 重用 其 中 的 大 部 分 代码 来 实现 相同 算法 。 


数据 类 型 ”我 们 在 数据 抽象 上 采用 了 现代 编程 风格 ， 将 数据 结构 和 算法 封装 在 了 一 起 。 


应 用 每 一 章 都 会 给 出 所 述 算法 起 到 关键 作用 的 应 用 场景 。 这 些 场景 多 种 多 样 ， 包 括 物理 模拟 
与 分 子 生物 学 、 计 算 机 与 系统 工程 学 ， 以 及 我 们 熟悉 的 数据 压缩 和 网 络 搜索 等 。 


学 术 性 ”我 们 非常 重视 使 用 数学 模型 来 描述 算法 的 性 能 。 我 们 用 模型 预测 算法 的 性 能 ， 然 后 在 
真实 的 环境 中 运行 程序 来 验证 预测 。 


广度 本 书 讨论 了 基本 的 抽象 数据 类 型 、 排 序 算法 、 搜 索 算法 、 图 及 字符 串 处 理 。 我 们 在 算法 


前 言 本 VII 


的 讨论 中 研究 数据 结构 、 算 法 设计 范式 、 归 纳 法 和 解 题 模型 。 这 将 涵盖 20 世 纪 60 年 代 以 来 的 经 典 方 
法 以 及 近年 来 产生 的 新 方法 。 


我 们 的 主要 目标 是 将 今天 最 重要 的 实用 算法 介绍 给 尽 可 能 广泛 的 群体 。 这 些 算法 一 般 都 十 分 巧 
妙 奇特 ，20 行 左右 的 代码 就 足以 表达 。 它 们 展现 出 的 问题 解决 能 力 令 人 叹为观止 。 没 有 它们 ,创造 
计算 智能 、 解 决 科学 问题 、 开 发 商业 软件 都 是 不 可 能 的 。 


本 书 网 站 


本 书 的 一 个 亮点 是 它 的 配套 网 站 algs4.cs.princeton.edu。 这 一 网 站 面向 教师 、 学 生 和 专业 人 十 
免费 提供 关于 算法 和 数据 结构 的 丰富 资料 。 


一 份 在 线 大 纲 包含 了 本 书 内 容 的 结构 并 提供 了 链接 ， 浏 览 起 来 十 分 方便 。 


全 部 实现 代码 “ 书 中 所 有 的 代码 均 可 以 在 这 里 找到 ， 且 其 形式 适合 用 于 程序 开发 。 此 外 ， 还 包 
括 算法 的 其 他 实现 ， 例 如 高 级 的 实现 、 书 中 提 及 的 改进 的 实现 、 部 分 习题 的 答案 以 及 多 个 应 用 场景 的 
客户 端 代码 。 我 们 的 重点 是 用 真实 的 应 用 环境 来 测试 算法 。 


习题 与 答案 ”网 站 还 提供 了 一 些 附加 的 选择 题 ( 只 需要 一 次 单 击 便 可 获取 答案 ) 、 很 多 算法 应 
用 的 例子 、 编 程 练习 和 答案 以 及 一 些 有 挑战 性 的 难题 。 


动态 可 视 化 书 是 死 的 ， 但 网 站 是 活 的 ， 在 这 里 我 们 充分 利用 图 形 类 演示 了 算法 的 应 用 效果 。 


课程 资料 网 站 包含 和 本 书 及 网 上 内 容 对 应 的 一 整套 幻灯 片 ， 以 及 一 系列 编程 作业 、 核 对 表 、 
测试 数据 和 备课 手册 。 


相关 资料 链接 网 站 包含 大 量 的 链接 ， 提 供 算法 应 用 的 更 多 背景 知识 以 及 学 习 算 法 的 其 他 资源 。 


我 们 希望 这 个 站 点 和 本 书 互 为 补充 。 一 般 来 说 ， 建 议 读者 在 第 一 次 学 习 某 种 算法 或 是 希望 获得 
整体 概念 时 看 书 ， 并 把 网 站 作为 编程 时 的 参考 或 是 在 线 查找 更 多 信息 的 起 点 。 


作为 教材 


本 书 为 计算 机 科学 专业 进 阶 的 教材 ， 涵 盖 了 这 门 学 科 的 核心 内 容 ， 并 能 让 学 生 充分 锻炼 编程 、 
定量 推理 和 解决 问题 等 方面 的 能 力 。 一 般 来 说 ， 此 前 学 过 一 门 计算 机 方面 的 先导 课程 就 足 侨 ， 只 要 
熟悉 一 门 现代 编程 语言 并 熟知 现代 计算 机 系统 ， 就 都 能 够 阅读 本 书 


虽然 本 书 使 用 Java 实 现 算法 和 数据 结构 ， 但 其 代码 风格 使 得 熟悉 其 他 现代 编程 语言 的 人 也 能 看 
懂 。 我 们 充分 利用 了 Java 的 抽象 性 (包括 泛 型 ) ， 但 不 会 依赖 这 门 语言 的 独门 特性 。 


书 中 涉及 的 多 数 数学 知识 都 有 完整 的 讲解 ( 少数 会 有 延伸 阅读 ) ， 因 此 阅读 本 书 并 不 需要 准备 
太 多 数学 知识 ， 不 过 有 一 定 的 数学 基础 当然 更 好 。 应 用 场景 都 来 自 其 他 学 科 的 基础 内 容 ， 同 样 也 在 
书 中 有 完整 介绍 。 


本 书 涉及 的 内 容 是 任何 准备 主 修 计算 机 科学 、 电 气 工程 、 运 筹 学 等 专业 的 学 生 应 了 解 的 基础 知 
识 ， 并 且 对 所 有 对 科学 、 数 学 或 工程 学 感 兴趣 的 学 生 也 十 分 有 价值 。 


这 本 书 意 在 接续 我 们 的 一 本 基础 教材 《Java 程 序 设计 : 一 种 跨 学 科 的 方法 》， 那 本 书 对 计算 机 
领域 做 了 概括 性 介绍 。 这 两 本 书 合 起 来 可 用 做 两 到 三 个 学 期 的 计算 机 科学 入 门 课程 教材 ， 为 所 有 学 
生 在 自然 科学 、 工 程 学 和 社会 科学 中 解决 计算 问题 提供 必 备 的 基础 知识 。 


本 书 大 部 分 内 容 来 自 Sedgewick 的 算法 系列 图 书 。 本 质 上 ， 本 书 和 该 系列 的 第 1 版 和 第 2 版 最 接 
近 ， 但 还 包含 了 作者 多 年 教学 和 学 习 的 经 验 。Sedgewick 的 《C 算 法 (第 3 版 ) 》《C++ 算 法 (第 3 版 )》、 
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础 


本 书 的 目的 是 研究 多 种 重要 而 实用 的 算法 ， 即 适合 用 计算 机 实现 的 解决 问题 的 方法 。 和 算法 关 
系 最 紧密 的 是 数据 结构 ， 即 便于 算法 操作 的 组 织 数据 的 方法 。 本 章 介绍 的 就 是 学 习 算法 和 数据 结构 


所 需要 的 基本 工具 。 


首先 要 介绍 的 是 我 们 的 基础 编程 模型 。 本 书 中 的 程序 只 用 到 了 Java 语言 的 一 小 部 分 ， 以 及 我 们 
自己 编写 的 用 于 封装 输入 输出 以 及 统计 的 一 些 库 。1.1 节 总 结 了 相关 的 语法 、 语 言 特性 和 书 中 将 会 


用 到 的 库 。 


接 下 来 我 们 的 重点 是 数据 抽象 并 定义 抽象 数据 类 型 ( ADT ) 以 进行 模块 化 编程 。 在 1.2 节 中 我 
们 介绍 了 用 Java 实现 抽象 数据 类 型 的 过 程 ， 包 括 定义 它 的 应 用 程序 编程 接口 (API ) 然后 通过 Java 


的 类 机 制 来 实现 它 以 供 各 种 用 例 使 用 。 


之 后 ， 作 为 重要 而 实用 的 例子 ,我们 将 学 习 三 种 基础 的 抽象 数据 类 型 背包、 队列 和 栈 。1.3 
节 用 数组 、 变 长 数组 和 链表 实现 了 背包 、 队 列 和 栈 的 API， 它 们 是 全 书 算法 实现 的 起 点 和 样板 。 

性 能 是 算法 研究 的 一 个 核心 问题 。1.4 节 描述 了 分 析 算法 性 能 的 方法 。 我 们 的 基本 做 法 是 科学 
式 的 ， 即 先 对 性 能 提出 假设 ， 建 立 数学 模型 ， 然 后 用 多 种 实验 验证 它们 ， 必 要 时 重复 这 个 过 程 。 

我 们 用 一 个 连通 性 问题 作为 例子 结束 本 章 ， 它 的 解法 所 用 到 的 算法 和 数据 结构 可 以 实现 经 典 的 


union-find 抽象 数据 结构 。 


算法 

编写 一 段 计算 机 程序 一 般 都 是 实现 一 种 
已 有 的 方法 来 解决 某 个 问题 。 这 种 方法 大 多 
和 使 用 的 编程 语言 无 关 一 一 它 适用 于 各 种 计 
算 机 以 及 编程 语言 。 是 这 种 方法 而 非 计算 机 
程序 本 身 描述 了 解决 问题 的 步骤 。 在 计算 机 
科学 领域 ， 我 们 用 算法 这 个 词 来 描述 一 种 有 
限 、 确 定 、 有 效 的 并 适合 用 计算 机 程序 来 实 
现 的 解决 问题 的 方法 。 算 法 是 计算 机 科学 的 
基础 ， 是 这 个 领域 研究 的 核心 。 

要 定义 一 个 算法 ,我 们 可 以 用 自然 语言 
描述 解决 某 个 问题 的 过 程 或 是 编写 一 段 程序 
来 实现 这 个 过 程 。 如 发 明 于 2300 多 年 前 的 欧 
几 里 德 算 法 所 示 ， 其 目的 是 找到 两 个 数 的 最 
大 公约 数 : 


自然 语言 描述 


计算 两 个 非 负 整 数 p 和 9g 的 最 大 公约 数 : 若 
9 是 0 则 最 大 公约 数 为 p。 和 否则 ， 将 pp 除 以 
9 得 到 余数 +r, p 和 9g 的 最 大 公约 数 即 为 9 和 
r 的 最 大 公约 数 。 


Java 语言 描述 


Public static int gcd(int p, int q) 


if (q == 0) return p; 
int r=p%q; 
return gcd(q, r); 


欧 几 里 德 算 法 
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如 果 你 不 熟悉 欧 几 里 德 算法 ， 那 么 你 应 该 在 学 习 了 1.1 节 之 后 完成 练习 1.1.24 和 练习 1.1.25。 
在 本 书 中 ， 我 们 将 用 计算 机 程序 来 描述 算法 。 这 样 做 的 重要 原因 之 一 是 可 以 更 容易 地 验证 它们 是 否 
如 所 要 求 的 那样 有 限 、 确 定 和 有 效 。 但 你 还 应 该 意识 到 用 某 种 特定 语言 写 出 一 段 程序 只 是 表达 一 个 
算法 的 一 种 方法 。 数 十 年 来 本 书 中 许多 算法 都 曾 被 表达 为 多 种 编程 语言 的 程序 ， 这 正 说 明 每 种 算法 
都 是 适合 于 在 任何 计算 机 上 用 任何 编程 语言 实现 的 方法 。 
我 们 关注 的 大 多 数 算法 都 需要 适当 地 组 织 数 据 ， 而 为 了 组 织 数据 就 产生 了 数据 结构 ， 数 据 结构 
也 是 计算 机 科学 研究 的 核心 对 象 ， 它 和 算法 的 关系 非常 密切 。 在 本 书 中 ， 我 们 的 观点 是 数据 结构 是 
算法 的 副产品 或 是 结果 , 因此 要 理解 算法 必须 学 习 数据 结构 。 简 单 的 算法 也 会 产生 复杂 的 数据 结构 ， 
相应 地 ， 复 杂 的 算法 也 许 只 需要 简单 的 数据 结构 。 本 书 中 我 们 将 会 研讨 许多 数据 结构 的 性 质 ， 也 许 
4 ] ”本 书 就 应 该 叫 《算法 与 数据 结构 》。 
当 用 计算 机 解决 一 个 问题 时 ， 一 般 都 存在 多 种 不 同 的 方法 。 对 于 小 型 问题 只 要 管用 ， 方 法 的 
不 同 并 没有 什么 关系 。 但 是 对 于 大 型 问题 ( 或 者 是 需要 解决 大 量 小 型 问题 的 应 用 ) ， 我 们 就 需要 设 
计 能 够 有 效 利用 时 间 和 空间 的 方法 了 。 
学 习 算法 的 主要 原因 是 它们 能 节约 非常 多 的 资源 ， 甚 至 能 够 让 我 们 完成 一 些 本 不 可 能 完成 的 任 
务 。 在 某 些 需 要 处 理 上 百 万 个 对 象 的 应 用 程序 中 ， 设 计 优 良 的 算法 甚至 可 以 将 程序 运行 的 速度 提高 
数 百 万 倍 。 在 本 书 中 我 们 将 在 多 个 场景 中 看 到 这 样 的 例子 。 与 此 相反 ， 花 费 金钱 和 时 间 去 购置 新 的 
硬件 可 能 只 能 将 速度 提高 十 倍 或 是 百倍 。 无 论 在 任何 应 用 领域 ， 精 心 设计 的 算法 都 是 解决 大 型 问题 
最 有 效 的 方法 。 
在 编写 庞大 或 者 复杂 的 程序 时 ， 理 解 和 定义 问题 、 控 制 问题 的 复杂 度 和 将 其 分 解 为 更 容易 解决 
的 子 问题 需要 大 量 的 工作 。 很 多 时 候 ， 分 解 后 的 子 问题 所 需 的 算法 实现 起 来 都 比较 简单 。 但 是 在 大 
多 数 情况 下 ， 某 些 算法 的 选择 是 非常 关键 的 ， 因 为 大 多 数 系统 资源 都 会 消耗 在 它们 身上 。 本 书 的 焦 
点 就 是 这 类 算法 。 我 们 所 研究 的 基础 算法 在 许多 应 用 领域 都 是 解决 困难 问题 的 有 效 方法 。 
计算 机 程序 的 共享 已 经 变 得 越 来 越 广 泛 ， 尽 管 书 中 涉及 了 许多 算法 ， 我 们 也 只 实现 了 其 中 的 一 
小 部 分 。 例 如 ，Java 库 包 含 了 许多 重要 算法 的 实现 。 但 是 ， 实 现 这 些 基础 算法 的 简化 版 本 有 助 于 我 
们 更 好 地 理解 、 使 用 和 优化 它们 在 库 中 的 高 级 版 本 。 更 重要 的 是 ， 我 们 经 常 需 要 重新 实现 这 些 基础 
算法 ， 因 为 在 全 新 的 环境 中 (无论 是 硬件 的 还 是 软件 的 ) ， 原 有 的 实现 无 法 将 新 环境 的 优势 完全 发 
挥 出 来 。 在 本 书 中 ， 我 们 的 重点 是 用 最 简洁 的 方式 实现 优秀 的 算法 。 我 们 会 仔细 地 实现 算法 的 关键 
部 分 ， 并 尽 最 大 努力 揭示 如 何 进 行 有 效 的 底层 优化 工作 。 
5 为 一 项 任务 选择 最 合适 的 算法 是 困难 的 ， 这 可 能 会 需要 复杂 的 数学 分 析 。 计 算 机 科学 中 研究 这 
种 问题 的 分 支 叫做 算法 分 析 。 通 过 分 析 ， 我 们 将 要 学 习 的 许多 算法 都 有 着 优秀 的 理论 性 能 ， 而 另 
些 我 们 则 只 是 根据 经 验 知道 它们 是 可 用 的 。 我 们 的 主要 目标 是 学 习 典型 问题 的 各 种 有 效 算法 ， 但 也 
会 注意 比较 不 同 算法 之 间 的 性 能 差异 。 不 应 该 使 用 资源 消耗 情况 未 知 的 算法 ， 因 此 我 们 会 时 刻 关注 
算法 的 期 望 性 能 。 


本 书 框架 

接 下 来 概述 一 下 全 书 的 主要 内 容 ， 给 出 涉及 的 主题 以 及 本 书 大 致 的 组 织 结构 。 这 组 主题 触及 了 
尽 可 能 多 的 基础 算法 ， 其 中 的 某 些 领域 是 计算 机 科学 的 核心 内 容 ， 通 过 对 这 些 领 域 的 深入 研究 ， 我 
们 找 出 了 应 用 广泛 的 基本 算法 ， 而 另 一 些 算法 则 来 自 计算 机 科学 和 相关 领域 比较 前 沿 的 研究 成 果 。 
总 之 ， 本 书 讨论 的 算法 都 是 数 十 年 来 研发 的 重要 成 果 ， 它 们 将 继续 在 快速 发 展 的 计算 机 应 用 中 扮演 
重要 角色 。 
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第 1 章 基础 

它 讲解 了 在 随后 的 章节 中 用 来 实现 、 分 析 和 比较 算法 的 基本 原则 和 方法 ， 包 括 Java 编程 模型 
数据 抽象 、 基 本 数据 结构 、 集 合 类 的 抽象 数据 类 型 、 算 法 性 能 分 析 的 方法 和 一 个 案例 分 析 。 
第 2 章 排序 

有 序 地 重新 排列 数组 中 的 元 素 是 非常 重要 的 基础 算法 。 我 们 会 深入 研究 各 种 排序 算法 ， 包 括 插 
和 排序、 选择 排序 、 希 尔 排序 、 快 速 排序 、 归 并 排序 和 堆 排 序 。 同 时 我 们 还 会 讨论 另外 一 些 算法 ， 
它们 用 于 解决 儿 个 与 排序 相关 的 问题 ， 例 如 优先 队列 、 选 举 以 及 归并 。 其 中 许多 算法 会 成 为 后 续 章 
节 中 其 他 算法 的 基础 。 

第 3 章 查找 

从 庞大 的 数据 集中 找到 指定 的 条 目 也 是 非常 重要 的 。 我 们 将 会 讨论 基本 的 和 高 级 的 查找 算法 ， 
包括 二 叉 查 找 树 、 平 衡 查找 树 和 散 列表 。 我 们 会 梳理 这 些 方法 之 间 的 关系 并 比较 它们 的 性 能 。 
第 4 章 图 

图 的 主要 内 容 是 对 象 和 它们 的 连接 ， 连 接 可 能 有 权重 和 方向 。 利 用 图 可 以 为 大 量 重要 而 困难 的 
问题 建 模 ， 因 此 图 算法 的 设计 也 是 本 书 的 一 个 主要 研究 领域 。 我 们 会 研究 深度 优先 搜索 、 广 度 优先 
搜索 、 连 通 性 问题 以 及 若干 其 他 算法 和 应 用 ， 包 括 Kruskal 和 Prim 的 最 小 生成 树 算法 、Dijkstra 和 
Bellman-Ford 的 最 短路 径 算法 。 
第 5 章 字符 串 

字符 串 是 现代 应 用 程序 中 的 重要 数据 类 型 。 我 们 将 会 研究 一 系列 处 理 字符 串 的 算法 ， 首 先是 对 
字符 串 键 的 排序 和 查找 的 快速 算法 ， 然 后 是 子 字符 串 查找 、 正 则 表达 式 模式 匹配 和 数据 压缩 算法 。 

此 外 ， 在 分 析 一 些 本 身 就 十 分 重要 的 基础 问题 之 后 ， 这 一 章 对 相关 领域 的 前 沿 话题 也 作 了 介绍 。 
第 6 章 背景 

这 一 章 将 讨论 与 本 书 内 容 有 关 的 若干 其 他 前 沿 研究 领域 ， 包 括 科 学 计算 、 运 筹 学 和 计算 理论 。 
我 们 会 介绍 性 地 讲 一 下 基于 事件 的 模拟 、B 树 、 后 组 数组 、 最 大 流量 问题 以 及 其 他 高 级 主题 ， 以 帮 
助 读者 理解 算法 在 许多 有 趣 的 前 沿 研究 领域 中 所 起 到 的 巨大 作用 。 最 后 ， 我 们 会 讲 一 讲 搜索 问题 、 
问题 转化 和 NP 完全 性 等 算法 研究 的 支柱 理论 ， 以 及 它们 和 本 书 内 容 的 联系 。 

学 习 算法 是 非常 有 趣 和 令 人 激动 的 ， 因 为 这 是 一 个 历久 弥 新 的 领域 ( 我 们 学 习 的 绝 大 多 数 算法 
都 还 不 到 “五 十 岁 ”， 有 些 还 是 最 近 才 发 明 的 ， 但 也 有 一 些 算法 已 经 有 数 百 年 的 历史 ) 。 这 个 领域 
不 断 有 新 的 发 现 , 但 研究 透彻 的 算法 仍然 是 少数 。 本 书 中 既 有 精巧 、 复 杂 和 高 难度 的 算法 , 也 有 优雅 、 
朴素 和 简单 的 算法 。 在 科学 和 商业 应 用 中 ,我 们 的 目标 是 理解 前 者 并 熟悉 后 者 ， 这 样 才能 掌握 这 些 
有 用 的 工具 并 学 会 算法 式 思考 ， 以 迎接 未 来 计算 任务 的 挑战 。 7 


























4 办 第 1 章 基 础 


1.1 基础 编程 模型 


我 们 学 习 算法 的 方法 是 用 Java 编程 语言 编写 的 程序 来 实现 算法 。 这 样 做 是 出 于 以 下 原因 : 

口 程序 是 对 算法 精确 、 优 雅 和 完全 的 描述 ; 

口 可 以 通过 运行 程序 来 学 习 算法 的 各 种 性 质 ; 

口 可 以 在 应 用 程序 中 直接 使 用 这 些 算法 。 

相 比 用 自然 语言 描述 算法 ， 这 些 是 重要 而 巨大 的 优势 。 

这 样 做 的 一 个 缺点 是 我 们 要 使 用 特定 的 编程 语言 , 这 会 使 分 离 算法 的 思想 和 实现 细节 变 得 困难 。 
我 们 在 实现 算法 时 考虑 到 了 这 一 点 ， 只 使 用 了 大 多 数 现代 编程 语言 都 具有 且 能 够 充分 描述 算法 所 必 

我 们 仅 使 用 了 Java 的 一 个 子 集 。 尽 管 我 们 没有 明确 地 说 明 这 个 子 集 的 范围 ， 但 你 也 会 看 到 我 们 
只 使 用 了 很 少 的 Java 特性 ， 而 且 会 优先 使 用 大 多 数 现代 编程 语言 所 共有 的 语法 。 我 们 的 代码 是 完整 
的 ， 因 此 希望 你 能 下 载 这 些 代 码 并 用 我 们 的 测试 数据 或 是 你 自己 的 来 运行 它们 。 

我 们 把 描述 和 实现 算法 所 用 到 的 语言 特性 、 软 件 库 和 操作 系统 特性 总 称 为 基础 编程 模型 。 本 
节 以 及 1.2 节 会 详细 说 明 这 个 模型 ， 相 关内 容 自 成 一 体 ， 主 要 是 作为 文档 供 读者 查阅 ， 以 便 理解 本 
书 的 代码 。 我 们 的 另 一 本 入 门 级 的 书籍 4n Introduction to Programming in Java: An Interdisciplinary 
Approach 也 使 用 了 这 个 模型 。 

作为 参考 ， 图 1.1.1 所 示 的 是 一 个 完整 的 Java 程序 。 它 说 明了 我 们 的 基础 编程 模型 的 许多 基本 
特点 。 在 讨论 语言 特性 时 我 们 会 用 这 段 代 码 作为 例子 ， 但 可 以 先 不 用 考虑 代码 的 实际 意义 ( 它 实现 
了 经 典 的 二 分 查找 算法 ， 并 在 白 名 单 过 滤 应 用 中 对 算法 进行 了 检验 ， 请 见 1.1.10 节 ) 。 我 们 假设 你 
具备 某 种 主流 语言 编程 的 经 验 ， 因 此 你 应 该 知道 这 段 代码 中 的 大 多 数 要 点 。 图 中 的 注释 应 该 能 够 解 
答 你 的 任何 疑问 。 因 为 图 中 的 代码 某 种 程度 上 反映 了 本 书 代码 的 风格 ， 而 且 对 各 种 Java 编程 惯例 和 

8 | 语言 构造 ， 在 用 法 上 我 们 都 力求 一 致 ， 所 以 即使 是 经 验 丰富 的 Java 程序 员 也 应 该 看 一 看 。 


1.1.1 Java 程序 的 基本 结构 


一 段 Java 程序 ( 类 ) 或 者 是 一 个 静态 方法 (函数 ) 库 ,， 或 者 定义 了 一 个 数据 类 型 。 要 创建 静态 
方法 库 和 定义 数据 类 型 ,会 用 到 下 面 五 种 语法 ,它们 是 Java 语 言 的 基础 ,也 是 大 多 数 现代 语言 所 共有 的 。 
口 原始 数据 类 型 : 它们 在 计算 机 程序 中 精确 地 定义 整数 、 浮 点 数 和 布尔 值 等 。 它 们 的 定义 包括 
取 值 范围 和 能 够 对 相应 的 值 进行 的 操作 ， 它 们 能 够 被 组 合 为 类 似 于 数学 公式 定义 的 表达 式 。 
口 语句 : 语句 通过 创建 变量 并 对 其 赋值 、 控 制 运行 流程 或 者 引发 副作用 来 进行 计算 。 我 们 会 使 
用 六 种 语句 声明、 赋值 、 条 件 、 循 环 、 调 用 和 返回 。 
口 数组 : 数组 是 多 个 同 种 数据 类 型 的 值 的 集合 。 
口 静态 方法 : 静态 方法 可 以 封装 并 重用 代码 ， 使 我 们 可 以 用 独立 的 模块 开发 程序 。 
口 字符 串 : 字符 串 是 一 连 串 的 字符 ，Java 内 置 了 对 它们 的 一 些 操作 。 
口 标准 输入 /输出 : 标准 输入 输出 是 程序 与 外 界 联系 的 桥梁 。 
口 数据 抽象 : 数据 抽象 封装 和 重用 代码 , 使 我 们 可 以 定义 非 原始 数据 类 型 ,进而 支持 面向 对 象 编程 。 
我 们 将 在 本 节 学 习 前 五 种 语法 ， 数 据 抽象 是 下 一 节 的 主题 。 
运行 Java 程序 需要 和 操作 系统 或 开发 环境 打交道 。 为 了 清晰 和 简洁 ， 我 们 把 这 种 输入 命令 执行 
程序 的 环境 称 为 虚拟 终端 。 请 登录 本 书 的 网 站 去 了 解 如 何 使 用 虚拟 终端 ， 或 是 现代 系统 中 许多 其 他 
高 级 的 编程 开发 环境 的 使 用 方法 。 
在 例子 中 ，BinarySearch 类 有 两 个 静态 方法 rank() 和 main()。 第 一 个 方法 rank() 含有 四 条 
语句 : 两 条 声明 语句 , 一 条 循环 语句 ( 该 语句 中 又 有 一 条 赋值 语句 和 两 条 条 件 语句 ) 和 一 条 返回 语句 。 
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第 二 个 方法 main() 包含 三 条 语句 : 一 条 声明 语句 、 一 条 调用 语句 和 一 个 循环 语句 该 语句 中 又 包 
含 一 条 赋值 语句 和 一 条 条 件 语句 ) 。 

要 执行 一 个 Java 程序 ， 首 先 需 要 用 javac 命令 编译 它 ， 然 后 再 用 java 命令 运行 它 。 例 如 ， 要 
运行 BinarySearch， 首 先 要 输入 javac BinarySearch.java ( 这 将 生成 一 个 叫 BinarySearch.class 
的 文件 ， 其 中 含有 这 个 程序 的 Java 字 节 码 ) ; 然后 再 输入 java BinarySearch ( 接着 是 一 个 白 名 
单 文件 名 ) 把 控制 权 移交 给 这 段 字 节 码 程序 。 为 了 理解 这 段 程序 ， 我 们 接 下 来 要 详细 介绍 原始 数据 
类 型 和 表达 式 ， 各 种 Java 语句 、 数 组 、 静 态 方法 、 字 符 串 和 输入 输出 。 


导入 一 个 Java 库 (请 见 1.1.6.8 节 ) 














import java.util.Arrays; 代码 文件 名 必须 是 BinarySearch.java 
(请 见 1.1.6.5 节 ) 
lic cl inarySearch 
县 ic class Binal rcl Ba i 





public static int rankCint key, int[] a) 





























初 反 化 声明 语 条 | int 10 = 0; ， 返回 值 参数 类 型 
(请 见 1.1.4.1 节 ) int hi = a.length - 1; 
和 《9 才 式 (请 见 1.1.2 节 ) 
int mid =|1lo + (hi - 10) / 2; 
if (key < almid]) hi = mid - 1; 
ED | se if (key > asidj 1o = sid + 了 
else return mid; 
return -1; 
} 全 返回 语句 
RM nD 单元 测试 用 例 请 见 1.1.6.7 节 ) 





public static void main(String[] args) 


时 
没有 返回 值 ， 只 有 副作用 (请 见 1.1.6.3 节 ) 
int[] whitelist = In.readInts(args[0]); 
Arrays.sort(whitelist); ba 的 人 
i i 调用 我 们 的 标准 库 中 的 
ile (1StdIn.isEmptyO)) 人 
int key = StdIn.readInt(O); “调用 本 地 为 法 


条 件 语句 (请 iF CrankCkey, whitelist) == -1) = ~ 
见 1.1.33 节 ) StdOut.printlnCkey); | | (请 见 1168 节 ) 


























系统 将 "white1ist.txt" 作 
为 参数 传递 给 main() 


命令 行 (请 见 1.1.9.1 节 ) 
文件 名 ， 
% java BinarySearch largeW.txt < largeT.txt 
StdOut 的 输出 499s69 t 


PE 984875 重 定向 后 向 StdIn 输 入 
.3 的 文件 (请 见 1.1.9.5 节 ) 











图 1.1.1 Java 程序 及 其 命令 行 的 调用 10 
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1.1.2 ”原始 数据 类 型 与 表达 式 

数据 类 型 就 是 一 组 数据 和 对 其 所 能 进行 的 操作 的 集合 。 首 先 考虑 以 下 4 种 Java 语言 最 基本 的 原 
始 数 据 类 型 : 

口 整 型 ， 及 其 算术 运算 符 (int ) ; 

口 浮 点 型 ， 及 其 算术 运算 符 (double) ; 

口 布尔 型 ， 它 的 值 {true，false} 及 其 逻辑 操作 (boolean ) ; 

口 字符 型 ， 它 的 值 是 你 能 够 输入 的 英文 字母 数字 字符 和 符号 (char ) 。 

接 下 来 我 们 看 看 如 何 指明 这 些 类 型 的 值 和 对 这 些 类 型 的 操作 。 

Java 程序 控制 的 是 用 标识 符 命名 的 变量 。 每 个 变量 都 有 自己 的 类 型 并 存储 了 一 个 合法 的 值 。 在 
Java 代码 中 ,我们 用 类 似 数学 表达 式 的 表达 式 来 实现 对 各 种 类 型 的 操作 。 对 于 原始 类 型 来 说 ， 我 们 
用 标识 符 来 引用 变量 ， 用 +、-、* 、/ 等 运算 符 来 指定 操作 ， 用 字面 量 ， 例 如 1 或 者 3.14 来 表示 
值 , 用 形 如 (x+2.236)/2 的 表达 式 来 表示 对 值 的 操作 。 表 达 式 的 目的 就 是 计算 某 种 数据 类 型 的 值 。 
表 1.1.1 对 这 些 基本 内 容 进行 了 说 明 。 


表 1.1.1 Java 程序 的 基本 组 成 




















术 语 例子 定义 
原始 数据 类 型 “int double boolean char 一 组 数据 和 对 其 所 能 进行 的 操作 的 集合 ( Java 语言 内 汉 ) 
标识 符 a abc Ab$ ab abl23 lo hi 由 字母 、 数 字 、 下 划 线 和 $ 组 成 的 字符 串 ， 首 字符 不 能 是 
数字 
变量 [任意 标识 符 ] 表示 某 种 数据 类 型 的 值 
运算 符 表示 某 种 数据 类 型 的 运算 
字面 量 int 10-42 值 在 源 代码 中 的 表示 
double 2.0 1.0e-15 3.14 
boolean true false 
char VW 
表达 式 int lo + (hi - 10) / 2 字面 量 、 变 量 或 是 能 够 计算 出 结果 的 一 让 字 而 量变 量 和 
double 1.0e-15 * t 运算 符 的 组 合 
boolean lo <= hi 


一 

只 要 能 够 指定 值 域 和 在 此 值 域 上 的 操作 ， 就 能 定义 一 个 数据 类 型 。 表 1.1.2 总 结 了 Java 的 
int、double、boolean 和 char 类 型 的 相关 信息 。 许 多 现代 编程 语言 中 的 基本 数据 类 型 和 它们 都 
很 相似 。 对 于 int 和 double 来 说 ， 这 些 操作 是 我 们 熟悉 的 算数 运算 ; 对 于 boolean 来 说 则 是 逻辑 
运算 。 需 要 注意 的 重要 一 点 是 ，+、-、*、/ 都 是 被 重 载 过 的 一 根据 上 下 文 ， 同 样 的 运算 符 对 不 
同类 型 会 执行 不 同 的 操作 。 这 些 初级 运算 的 关键 性 质 是 运算 产生 的 数据 的 数据 类 型 和 参与 运算 的 数 
据 的 数据 类 型 是 相同 的 。 这 也 意味 着 我 们 经 常 需要 处 理 近 似 值 ， 因 为 很 多 情况 下 由 表达 式 定义 的 准 
确 值 并 非 参 与 表达 式 运算 的 值 。 例 如 ，5/3 的 值 是 1 而 5.0/3.0 的 值 是 1.66666666666667， 两 者 
都 很 接近 但 并 不 准确 地 等 于 5/3。 下 表 并 不 完整 ， 我 们 会 在 本 节 最 后 的 答疑 部 分 中 讨论 更 多 运算 符 
和 偶尔 需要 考虑 到 的 各 种 异常 情况 。 


表 1.1.2 Java 中 的 原始 数据 类 型 





运 典型 表达 式 
类 型 值 域 运算 符 表达 式 值 
int -2" 至 +2" -1 之 间 的 整 + (加 ) re 8 
数 (32 位 , 二 进 制 补 码 ) - ( 减 ) 5-3 2 
*( 乘 ) 5 * 3 15 
/( 除 ) S73 1 
5%3 2 
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( 续 ) 
a 典型 表达 式 
类 型 值 域 运算 符 表达 式 值 
double 双 精 度 实数 (64 位， + (加) 3.141 - 0.03 3.111 
IEEE 754 标准 ) - ( 减 ) 2.0 - 2.0e-7 1.9999998 
* ( 乘 ) 100 * 0.015 L$ 
/( 除 ) 6.02e23 / 2.0 3.01e23 
boolean true 或 false 本 (与 ) true && false false 
11 (或 ) false || true true 
! ( 非 ) !false true 
和 ( 异 或 ) true 和 true false 
char 字符 (16 位 ) 【算术 运算 符 ， 但 很 少 使 用 ) 12 
1.1.2.1 表达 式 


如 表 1.1.2 所 示 ,Java 使 用 的 是 中 组 表达 式 : 一 个 字面 量 ( 或 是 一 个 表达 式 ), 紧 接着 是 一 个 运算 符 ， 
再 接着 是 另 一 个 字面 量 ( 或 者 另 一 个 表达 式 ) 。 当 一 个 表达 式 包含 一 个 以 上 的 运算 符 时 ， 运 算 符 的 
作用 顺序 非常 重要 ， 因 此 Java 语言 规范 约定 了 如 下 的 运算 符 优先 级 ; 运算 符 * 和 / (以 及 %) 的 优 
先 级 高 于 + 和 - (优先 级 越 高 ， 越 早 运算 ) ; 在 逻辑 运算 符 中 ，! 拥有 最 高 优先 级 ， 之 后 是 嫩 ， 接 
下 来 是 1。 一般 来 说 , 相同 优先 级 的 运算 符 的 运算 顺序 是 从 左 至 右 。 与 在 正常 的 算数 表达 式 中 一 样 ， 
使 用 括号 能 够 改变 这 些 规则 。 因 为 不 同 语言 中 的 优先 级 规则 会 有 些许 不 同 ， 我 们 在 代码 中 会 使 用 括 
号 并 用 各 种 方法 努力 消除 对 优先 级 规则 的 依赖 。 
1.1.2.2 ”类 型 转换 

如 果 不 会 损失 信息 ， 数 值 会 被 自动 提升 为 高 级 的 数据 类 型 。 例 如 ， 在 表达 式 1+2.5 中 ，! 会 被 
转换 为 浮 点 数 1.0， 表 达 式 的 值 也 为 double 值 3.5。 转 换 指 的 是 在 表达 式 中 把 类 型 名 放 在 括号 里 
将 其 后 的 值 转换 为 括号 中 的 类 型 。 例 如 ，(int)3.7 的 值 是 3 而 (doub1le)3 的 值 是 3.0。 需 要 注意 
的 是 将 浮 点 型 转换 为 整 型 将 会 截断 小 数 部 分 而 非 四 合 五 人 ， 在 复杂 的 表达 式 中 的 类 型 转换 可 能 会 很 
复杂 ， 应 该 小 心 并 尽量 少 使 用 类 型 转换 ， 最 好 是 在 表达 式 中 只 使 用 同一 类 型 的 字面 量 和 变量 。 
1.1.2.3 ”比较 

下 列 运算 符 能 够 比较 相同 数据 类 型 的 两 个 值 并 产生 一 个 布尔 值 : 相等 (== ) 、 不 等 (!=) 、 小 
于 (<) 、 小 于 等 于 (<=) 、 大 于 (> ) 和 大 于 等 于 (>=) 。 这 些 运算 符 被 称 为 混合 类 型 运算 符 ， 因 
为 它们 的 结果 是 布尔 型 ， 而 不 是 参与 比较 的 数据 类 型 。 结 果 是 布尔 型 的 表达 式 被 称 为 布尔 表达 式 。 
我 们 将 会 看 到 这 种 表达 式 是 条 件 语 句 和 循环 语句 的 重要 组 成 部 分 。 
1.1.2.4 其 他 原始 类 型 

Java 的 整 型 能 够 表示 2? 个 不 同 的 值 ， 用 一 个 32 位 二 进 制 即 可 表示 ( 虽然 现在 的 许多 计算 机 有 
64 位 二 进 制 ， 但 整 型 仍然 是 32 位 ) 。 与 此 相似 ， 浮 点 型 的 标准 规定 为 64 位 。 这 些 大 小 对 于 一 般 应 
用 程序 中 使 用 的 整数 和 实数 已 经 足够 了 。 为 了 提供 更 大 的 灵活 性 ，Java 还 提供 了 其 他 五 种 原始 数据 
类 型 : 

口 64 位 整数 ， 及 其 算术 运算 符 (long); 

口 16 位 整数 ， 及 其 算术 运算 符 (short); 

口 16 位 字符 ， 及 其 算术 运算 符 (char); 

口 8 位 整数 ， 及 其 算术 运算 符 (byte); 

口 32 位 单 精度 实数 ， 及 其 算术 运算 符 (float)。 
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在 本 书 中 我 们 大 多 使 用 int 和 double 进行 算术 运算 ， 因 此 我 们 在 此 不 会 再 详细 讨论 其 他 类 似 
的 数据 类 型 。 


1.1.3 ”语句 

Java 程序 是 由 语句 组 成 的 。 语 句 能 够 通过 创建 和 操作 变量 、 对 变量 赋值 并 控制 这 些 操作 的 执行 
流程 来 描述 运算 。 语 句 通常 会 被 组 织 成 代码 段 ， 即 花 括号 中 的 一 系列 语句 。 

口 声明 语句 : 创建 某 种 类 型 的 变量 并 用 标识 符 为 其 命名 。 

口 赋值 语句 : 将 ( 由 表达 式 产生 的 ) 某 种 类 型 的 数值 赋予 一 个 变量 。Java 还 有 一 些 隐 式 赋值 的 

语法 可 以 使 某 个 变量 的 值 相对 于 当前 值 发 生变 化 ， 例 如 将 一 个 整 型 值 加 1。 

口 条 件 语句 : 能 够 简单 地 改变 执行 流程 一 一 根据 指定 的 条 件 执行 两 个 代码 段 之 一 。 

口 循环 语句 : 更 彻底 地 改变 执行 流程 一 一 只 要 条 件 为 真 就 不 断 地 反复 执行 代码 段 中 的 语句 。 

口 调用 和 返回 语句 : 和 静态 方法 有 关 ( 见 1.1.6 节 ) , 是 改变 执行 流程 和 代码 组 织 的 另 一 种 方式 。 

程序 就 是 由 一 系列 声明 、 赋 值 、 条 件 、 循 环 、 调 用 和 返回 语句 组 成 的 。 一 般 来 说 代码 的 结构 都 
是 炭 奏 的 : 一 个 条 件 语句 或 循环 语句 的 代码 段 中 也 能 包含 条 件 语句 或 是 循环 语句 。 例 如 ，rank() 
中 的 while 循环 就 包含 一 个 if 语句 。 接 下 来 ， 我 们 逐个 说 明 各 种 类 型 的 语句 。 
1.1.3.1 声明 语句 

声明 语句 将 一 个 变量 名 和 一 个 类 型 在 编译 时 关联 起 来 。Java 需要 我 们 用 声明 语句 指定 变量 的 名 
称 和 类 型 。 这 样 ， 我 们 就 清楚 地 指明 了 能 够 对 其 进行 的 操作 。Java 是 一 种 强 类 型 的 语言 ， 因 为 Java 
编译 器 会 检查 类 型 的 一 致 性 ( 例如 ， 它 不 会 允许 将 布尔 类 型 和 浮 点 类 型 的 变量 相 乘 ) 。 变 量 可 以 声 
明 在 第 一 次 使 用 之 前 的 任何 地 方 一 一 一 般 我 们 都 在 首次 使 用 该 变量 的 时 候 声明 它 。 变 量 的 作用 域 就 
是 定义 它 的 地 方 ， 一 般 由 相同 代码 段 中 声明 之 后 的 所 有 语句 组 成 。 
1.1.3.2 ”赋值 语句 

赋值 语句 将 ( 由 一 个 表达 式 定义 的 ) 某 个 数据 类 型 的 值 和 一 个 变量 关联 起 来 。 在 Java 中 ， 当 我 
们 写 下 c=atb 时 ， 我 们 表达 的 不 是 数学 等 式 ， 而 是 一 个 操作 ， 即 令 变量 c 的 值 等 于 变量 a 的 值 与 变 
量 b 的 值 之 和 。 当 然 ， 在 赋值 语句 执行 后 ， 从 数学 上 来 说 c 的 值 必然 会 等 于 atb， 但 语句 的 目的 是 
改变 < 的 值 ( 如 果 需 要 的 话 ) 。 赋 值 语句 的 左 侧 必须 是 单个 变量 ， 右 侧 可 以 是 能 够 得 到 相应 类 型 的 
值 的 任意 表达 式 。 
1.1.3.3 条件 语句 

大 多 数 运算 都 需要 用 不 同 的 操作 来 处 理 不 同 的 输入 。 在 Java 中 表达 这 种 差异 的 一 种 方法 是 if 
语句 : 

if (<boolean expression>) { <block statements> } 
这 种 描述 方式 是 一 种 叫做 模板 的 形式 记 法 ， 我 们 偶尔 会 使 用 这 种 格式 来 表示 Java 的 语法 。 尖 括号 
(<> ) 中 的 是 我 们 已 经 定义 过 的 语法 ， 这 表示 我 们 可 以 在 指定 的 位 置 使 用 该 语法 的 任意 实例 。 在 这 
里 ，<boolean expression> 表示 一 个 布尔 表达 式 ， 例 如 一 个 比较 操作 。<block statements> 表 
示 一 段 Java 语 句 。 我 们 也 可 以 给 出 <boolean expression> 和 <block statements> 的 形式 定义 ， 
不 过 我 们 不 想 深 入 这 些 细节 。if 语句 的 意义 不 言 自明 : 当 且 仅 当 布 尔 表 达 式 的 值 为 真 (true) 时 代 
码 段 中 的 语句 才 会 被 执行 。 以 下 if-else 语句 能 够 在 两 个 代码 段 之 间作 出 选择 : 


if (<boolean expression>) { <block statements> } 
else { <block statements> } 
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1.1.3.4 ”循环 语句 

许多 运算 都 需要 重复 。Java 语言 中 处 理 这 种 计算 的 基本 语句 的 格式 是 : 

while (<boolean expression>) { <block statements> } 
while 语句 和 话语 名 的 形式 相似 ( 只 是 用 while 代替 了 if ) ,但 意义 大 有 不 同 。 当 布尔 表达 式 的 
值 为 假 ( false ) 时 , 代码 什么 也 不 做 ; 当 布 尔 表达 式 的 值 为 真 ( true ) 时 , 执行 代码 段 ( 和 i 一样)， 
然后 再 次 检查 布尔 表达 式 的 值 ， 如 果 仍然 为 真 ， 再 次 执行 代码 段 。 如 此 这 般 ， 只 要 布尔 表达 式 的 值 
为 真 ， 就 继续 执行 代码 段 。 我 们 将 循环 语句 中 的 代码 段 称 为 循环 体 。 
1.1.3.5 break 与 continue 语句 

有 些 情况 下 我 们 也 会 需要 比 基 本 的 if 和 while 语句 更 加 复杂 的 流程 控制 。 相 应 地 ，Java 支持 
在 while 循环 中 使 用 另外 两 条 语句 : 

口 break 语句 ， 立 即 从 循环 中 退出 ; 

口 continue 语句 ， 立 即 开始 下 一 轮 循环 。 

本 书 很 少 在 代码 中 使 用 它们 ( 许多 程序 员 从 来 都 不 用 ) ， 但 在 某 些 情况 下 它们 的 确 能 够 大 大 简 
化 代码 。 15 


1.1.4 简便 记 法 


程序 有 很 多 种 写法 ,我 们 追求 清晰 、 优 雅 和 高 效 的 代码 。 这 样 的 代码 经 常会 使 用 以 下 这 些 广 为 
流传 的 简便 写法 ( 不 仅仅 是 Java， 许 多 语言 都 支持 它们 ) 。 
1.1.4.1 声明 并 初始 化 

可 以 将 声明 语句 和 赋值 语句 结合 起 来 ， 在 声明 ( 创建 ) 一 个 变量 的 同时 将 它 初始 化 。 例 如 ， 
int i = 1; 创建 了 名 为 i 的 变量 并 赋予 其 初始 值 1。 最 好 在 接近 首次 使 用 变量 的 地 方 声明 它 并 将 
其 初始 化 ( 为 了 限制 它 的 作用 域 ) 。 
1.1.4.2” 隐 式 赋值 

当 希 望 一 个 变量 的 值 相对 于 其 当前 值 变化 时 ， 可 以 使 用 一 些 简便 的 写法 。 

口 递 增 /递减 运算 符 ，++i; 等 价 于 i=i+1; 且 表 达 式 为 i+1;。 类 似 地 ，--i; 等 价 于 i=i- 
1;i++;。 和 i--; 的 意思 相同 ， 只 是 表达 式 的 值 为 i 的 值 。 

口 其 他 复合 运算 符 ， 在 赋值 语句 中 将 一 个 二 元 运算 符 写 在 等 号 之 前 ， 等 价 于 将 左边 的 变量 放 在 
等 号 右边 并 作为 第 一 个 操作 数 。 例 如 ，i/=2; 等 价 于 i=i/2;。 注 意 ,i += 1; 等 价 于 i = 
1+ 1; (以 及 ++i;)。 

1.1.4.3 单 语 句 代 码 段 

如 果 条 件 或 循环 语句 的 代码 段 只 有 一 条 语句 ， 代 码 段 的 花 括 号 可 以 省 略 。 
1.1.4.4 for 语句 

很 多 循环 的 模式 都 是 这 样 的 : 初始 化 一 个 索引 变量 ， 然 后 使 用 while 循环 并 将 包含 索引 变量 的 
表达 式 作为 循环 的 条 件 ，while 循环 的 最 后 一 条 语句 会 将 索引 变量 加 1。 使 用 Java 的 for 语句 可 以 
更 紧凑 地 表达 这 种 循环 : 


for (<initialize>; <boolean expression>; <increment>) 














<block statements> 


除了 几 种 特殊 情况 之 外 ， 这 段 代码 都 等 价 于 : 
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<initialize>; 


while (<boolean expression>) 


{ 


<block statements> 


<increment>; 


我 们 将 使 用 for 语句 来 表示 对 这 种 初始 化 一 通 增 循环 用 法 的 支持 。 















































16 
表 1.1.3 总 结 了 各 种 Java 语句 及 其 示例 与 定义 。 
表 1.1.3 Java 语句 
语句 示 例 定义 
声明 语句 int 1; 创建 一 个 指定 类 型 的 变量 并 用 标识 符 
double ci 
赋值 语句 a=b+3; 将 某 一 数据 类 型 的 值 赋予 一 个 变量 
discriminant = b* b - 4.0* ci 
声明 并 初始 化 int i = 1; 在 声明 时 赋予 变量 初始 值 
double c = 3.14159265; 
隐 式 赋值 ++i; i=i+1; 
it= 1; 
条 件 语句 (if) if (x < 0) x = -x; 根据 布尔 表达 式 的 值 执行 一 条 语句 
条 件 语句 (if-else) if (x > y) max = xi 根据 布尔 表达 式 的 值 执行 两 条 语句 中 
else max = y; 的 一 条 
循环 语句 ( while ) int v = 0; 执行 语句 ， 直 至 布尔 表达 式 的 值 变 为 
while(v <= N) 假 (false) 
VvV=2*v; 
double + = c; 
while (Math.abs(t - c/t) > le-15*t) 
t= (c/t + t) /2.0; 
循环 语句 ( for ) for (int 1 = 1; i <= Ni i++) while 语句 的 简化 版 
for (int 1 = 0; 1 <= Ni i++) 
StdOut .print1nC2*Math. PI*i/N); 
调用 语句 int key = StdIn.readInt(); 调用 另 一 方法 (请 见 1.1.6.2 节 ) 
17 返回 语句 return false; 从 方法 中 返回 (请 见 1.1.6.3 节 ) 
1.1.5 数组 


数组 能 够 顺序 存储 相同 类 型 的 多 个 数据 。 除 了 存储 数据 ， 我 们 也 希望 能 够 访问 数据 。 访 问 数 组 
中 的 某 个 元 素 的 方法 是 将 其 编号 然后 索引 。 如 果 我 们 有 N 个 值 ， 它 们 的 编号 则 为 0 至 N-1。 这 样 对 
于 0 到 A-1 之 间 任意 的 1， 我 们 就 能 够 在 Java 代码 中 用 a[i] 唯一 地 表示 第 i 个 元 素 的 值 。 在 Java 
中 这 种 数组 被 称 为 一 维 教 组 。 
1.1.5.1 创建 并 初始 化 数组 

在 Java 程序 中 创建 一 个 数组 需要 三 步 : 

口 声明 数组 的 名 字 和 类 型 ; 


口 创建 数组 ; 


口 初始 化 数组 元 素 。 
在 声明 数组 时 ， 需 要 指定 数组 的 名 称 和 它 含有 的 数据 的 类 型 。 在 创建 数组 时 ， 需 要 指定 数组 的 
长 度 ( 元 素 的 个 数 )。 例 如 , 在 以 下 代码 中 ,“ 完 整 模式 ” 部 分 创建 了 一 个 有 N 个 元 素 的 double 数组 ， 


所 有 的 元 素 的 初始 值 都 是 0.0。 第 一 条 语句 是 数组 的 
声明 ， 它 和 声明 一 个 相应 类 型 的 原始 数据 类 型 变量 
十 分 相似 ， 只 有 类 型 名 之 后 的 方 括号 说 明 我 们 声明 
的 是 一 个 数组 。 第 二 条 语句 中 的 关键 字 new 使 Java 
创建 了 这 个 数组 。 我 们 需要 在 运行 时 明确 地 创建 数 
组 的 原因 是 Java 编译 器 在 编译 时 无 法 知道 应 该 为 数 
组 预 留 多 少 空间 ( 对 于 原始 类 型 则 可 以 ) 。for 语 
句 初始 化 了 数组 的 N 个 元 素 ,将 它们 的 值 置 为 0.0。 
在 代码 中 使 用 数组 时 ， 一 定 要 依次 声明 、 创 建 并 初 
始 化 数组 。 忽 略 了 其 中 的 任何 一 步 都 是 很 常见 的 纺 
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完整 模式 声明 数组 
double[] ai 

a = new double[N]; 一 

for (int i = 0; i < N; i++) 

ari] = 0.0; 


创建 数组 


ws 
简化 写法 初始 化 数组 
double[] a = new double[N]; 
声明 初始 化 
int[] a= {1, 1,2,3,5,8}; 
声明 、 创 建 并 初始 化 一 个 数组 


程 错 误 。 
1.1.5.2 简化 写法 

为 了 精简 代码 ， 我 们 常常 会 利用 Java 对 数组 默认 的 初始 化 来 将 三 个 步骤 合 为 一 条 语句 ， 即 上 例 
中 的 简化 写法 。 等 号 的 左 侧 声明 了 数组 ， 等 号 的 右 侧 创建 了 数组 。 这 种 写法 不 需要 for 循环 ， 因 为 
在 一 个 Java 数组 中 double 类 型 的 变量 的 默认 初始 值 都 是 0.0， 但 如 果 你 想 使 用 不 同 的 初始 值 ， 那 
么 就 需要 使 用 for 循环 了 。 数 值 类 型 的 默认 初始 值 是 0， 布 尔 型 的 默认 初始 值 是 false。 例 子 中 的 
第 三 种 方式 用 花 括 号 将 一 列 由 逗号 分 隔 的 值 在 编译 时 将 数组 初始 化 。 
1.1.5.3 ”使 用 数组 

典型 的 数组 处 理 代码 请 见 表 1.1.4。 在 声明 并 创建 数组 之 后 ， 在 代码 的 任何 地 方 都 能 通过 数组 
名 之 后 的 方 括号 中 的 索引 来 访问 其 中 的 元 素 。 数 组 一 经 创建 ， 它 的 大 小 就 是 固定 的 。 程 序 能 够 通过 
a.1ength 获取 数组 a[] 的 长 度 ， 而 它 的 最 后 一 个 元 素 总 是 a[a.length - 1] 。Java 会 自动 进行 边 
界 检查 一 一 如 果 你 创建 了 一 个 大 小 为 N 的 数组 ， 但 使 用 了 一 个 小 于 0 或 者 大 于 N-1 的 索引 访问 它 ， 
程序 会 因为 运行 时 抛 出 ArrayOutOfBoundsException 异常 而 终止 。 


表 1.1.4 典型 的 数组 处 理 代码 
实现 〈 代 码 片段 ) 


double max = a[0]; 
for (int i = 1; i < a.length; i++) 
if Cafi] > max) max = a[i]; 


任 务 
找 出 数组 中 最 大 的 元 素 








计算 数组 元 素 的 平均 值 int N = a.length; 

double sum = 0.0; 

for (int 1 = 0; i < Ni i++) 
Sum += a[i]; 

double average = sum / Ni 





复制 数组 int N = avlength; 
double[] b = new double[N]; 
for (int 1 = 0; i < N; i++) 


b[i] = ali]; 


int N = a. length; 
for (int 1 = 0; 1 < N/2; i++) 
时 





旺 倒 数组 元 素 的 顺序 


double temp = a[i]; 
a[i] = afN-1-i]; 
a[N-i-1] = temp; 

} 
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( 续 ) 
任务 实现 (代码 片段 ) 
矩阵 相 乘 ( 方 阵 ) int N = alength; 
ar][] * b[][] = c[][] double[][] c = new double[N] [N]; 
for (int 1 = 0; i < N; 3 
for (int j = 0; j 






D+ 30fio tl; 
二 
1.1.5.4 起 别名 

请 注意 ， 数 组 名 表示 的 是 整个 数组 一 如 果 我 们 将 一 个 数组 变量 赋予 另 一 个 变量 ， 那么 两 个 变 
量 将 会 指向 同一 个 数组 。 例 如 以 下 这 段 代码 : 

int[] a = new int[N]; 

a[i] = 1234; 

int[] b = a; 

b[i] = 5678; // a[i] 的 值 也 会 变 成 5678 
这 种 情况 叫做 起 别名 , 有 时 可 能 会 导致 难以 察觉 的 问题 。 如 果 你 是 想 将 数组 复制 一 份 ， 那么 应 该 声明 、 
创建 并 初始 化 一 个 新 的 数组 ， 然 后 将 原 数组 中 的 元 素 值 挨个 复制 到 新 数组 ， 如 表 1.1.4 的 第 三 个 例 
子 所 示 。 
1.1.5.5 二 维 数组 

在 Java 中 二 维 数组 就 是 一 维 数组 的 数组 。 二 维 数组 可 以 是 参差 不 齐 的 (元 素数 组 的 长 度 可 以 不 
一 致 ) ,但 大 多 数 情况 下 ( 根据 合适 的 参数 M 和 N) 我 们 都 会 使 用 Mx N， 即 MM 行 长 度 为 NN 的 数 
组 的 二 维 数组 ( 也 可 以 称 数组 含有 N 列 ) 。 在 Java 中 访问 二 维 数组 也 很 简单 。 二 维 数组 ar] [] 的 
第 i 行 第 j 列 的 元 素 可 以 写作 a[i] [j]。 声明 二 维 数组 需要 两 对 方 括号 。 创 建 二 维 数组 时 要 在 类 型 
名 之 后 分 别 在 方 括号 中 指定 行 数 以 及 列 数 ， 例 如 ， 

double[][] a = new double[M][N]; 
我 们 将 这 样 的 数组 称 为 Mx N 的 数组 。 我 们 约定 ， 第 一 维 是 行 数 ， 第 二 维 是 列 数 。 和 一 维 数组 一 样 ， 
Java 会 将 数值 类 型 的 数组 元 素 初始 化 为 0， 将 布尔 型 的 数组 元 素 初始 化 为 false。 默认 的 初始 化 对 
二 维 数组 更 有 用 ， 因 为 可 以 节约 更 多 的 代码 。 下 面 这 段 代码 和 刚才 只 用 一 行 就 完成 创建 和 初始 化 的 
语句 是 等 价 的 : 


double[][] a; 
a = new double[M] [N]; 
for (int i = 0; 1 < M; i++) 
for (int j = 0; j < N; j++) 
a[i][j] = 0.0; 


在 将 二 维 数组 初始 化 为 0 时 这 段 代 码 是 多 余 的 ， 但 是 如 果 想 要 初始 化 为 其 他 值 ， 我 们 就 需要 典 
套 的 for 循环 了 。 


1.1.6 ”静态 方法 
本 书 中 的 所 有 Java 程序 要 么 是 数据 类 型 的 定义 ( 详 见 1.2 节 ) ,要 么 是 一 个 静态 方法 库 。 在 许 
多 语言 中 ， 静 态 方法 被 称 为 函数 ， 因 为 它们 和 数学 函数 的 性 质 类 似 。 静态 方法 是 一 组 在 被 调用 时 会 
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被 顺序 执行 的 语句 。 修 饰 符 static 将 这 类 方法 和 1.2 节 的 实例 方法 区 别 开 来 。 当 讨论 两 类 方法 共 
有 的 属性 时 我 们 会 使 用 不 加 定语 的 方法 一 词 。 
1.1.6.1 静态 方法 

方法 封装 了 由 一 系列 语句 所 描述 的 运 签名 


算 。 方 法 需要 参数 ( 某 种 数据 类 型 的 值 ) 并 nt et 





























根据 参数 计算 出 某 种 数据 类 型 的 返回 值 ( 例 public static [double][sart] ( [doubie ¢]) 
如 数学 函数 的 结果 ) 或 者 产生 某 种 副作用 ( 例 { 
如 打印 一 个 值 ) 。BinarySearch 中 的 静态 函 if (c < 0) return Double.NaN; 


局 部 ~ = le-15; 
数 rankO 是 前 者 的 一 个 例子 ;main 则 是 。 安生 GATE er -1e 5 


后 者 的 一 个 例子 。 每 个 静态 方法 都 是 由 签名 ”如 数 体 一 -|while KMath.absCt - cytjj > err * t) 












































(关键 字 pub1ic static 以 及 函数 的 返回 值 ， ER Ke +t72 
方法 名 以 及 一 串 各 种 类 型 的 参数 ) 和 函数 体 } 一 Te 
( 即 包含 在 花 括号 中 的 代码 ) 组 成 的 ， 如 图 a 
1.1.2 所 示 。 静 态 函 数 的 例子 请 见 表 1.1.5。 图 1.1.2 静态 方法 解析 
表 1.1.5 ”典型 静态 方法 的 实现 
任 务 实 现 
计算 一 个 整数 的 绝对 值 public statte int absGinr 罗 
if (x < 0) return -x; 
else return x; 
} 
计算 一 个 浮 点 数 的 绝对 值 public static double abs(double x) 
攻 
if (x < 0.0) return -xi 
else return xi 
判定 一 个 数 是 否 是 素数 public static boolean isprimeCint N) 


if (CN < 2) return false; 

for (int 1 = 2; i*i <= Ni i++) 
if (CN % i == 0) return false; 

return true; 





计算 平方 根 ( 牛顿 迭代 法 ) public static double sqrt(double c) 
{ 


if (c < 0) return Double.NaN; 
double err = le-15; 
double t = ci 
while (Math.abs(t - c/t) > err * t) 
t= (ct At /2.0; 
return t; 
} 


计算 直角 三 角形 的 斜 边 public static double hypotenuse(double a, double b) 
{ return Math.sqrt(a*a + b*b); } 


计算 调和 级 数 (请 见 表 1.4.5) public static double HCint N) 
{ 








double sum 
for (Cint i 






return sum; 
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1.1.6.2 ”调用 静态 方法 
调用 静态 方法 的 方法 是 写 出 方法 名 并 在 后 面 的 括号 中 列 出 参数 值 ， 用 逗号 分 隔 。 当 调用 是 表达 
式 的 一 部 分 时 ， 方 法 的 返回 值 将 会 替代 表达 式 中 的 方法 调用 。 例 如 ，BinarySearch 中 调用 rankO) 
返回 了 一 个 int 值 。 仅 由 一 个 方法 调用 和 一 个 分 号 组 成 的 语句 一 般 用 于 产生 副作用 。 例 如 ， 
BinarySearch 的 main() 函数 中 对 系统 方法 Arrays.sort() 的 调用 产生 的 副作用 ， 是 将 数组 中 的 所 
有 条 目 有 序 地 排列 。 调 用 方法 时 ， 它 的 参数 变量 将 被 初始 化 为 调用 时 所 给 出 的 相应 表达 式 的 值 。 返 
回 语句 将 结束 静态 方法 并 将 控制 权 交还 给 调用 者 。 如 果 静 态 方法 的 目的 是 计算 某 个 值 ， 返 回 语句 应 
该 指定 这 个 值 ( 如 果 这 样 的 静态 方法 在 执行 完 所 有 的 语句 之 后 都 没有 返回 语句 ， 编 译 器 会 报错 ) 。 
1.1.6.3 方法 的 性 质 
对 方法 所 有 性 质 的 完整 描述 超出 了 本 书 的 范畴 ， 但 以 下 几 点 值得 一 提 。 
口 方法 的 参数 按 值 传递 : 在 方法 中 参数 变量 的 使 用 方法 和 局 部 变量 相同 ， 唯 一 不 同 的 是 参数 变 
量 的 初始 值 是 由 调用 方 提供 的 。 方 法 处 理 的 是 参数 的 值 ， 而 非 参数 本 身 。 这 种 方式 产生 的 
结果 是 在 静态 方法 中 改变 一 个 参数 变量 的 值 对 调用 者 没有 影响 。 本 书 中 我 们 一 般 不 会 修改 
参数 变量 。 值 传递 也 意味 着 数组 参数 将 会 是 原 数组 的 别名 ( 见 1.1.5.4 节 ) 一 一 方法 中 使 用 
的 参数 变量 能 够 引用 调用 者 的 数组 并 改变 其 内 容 ( 只 是 不 能 改变 原 数组 变量 本 身 ) 。 例 如 ， 
Arrays.sort() 将 能 够 改变 通过 参数 传递 的 数组 的 内 容 ， 将 其 排序 。 
口 方法 名 可 以 被 重 栽 : 例如 ，Java 的 Math 包 使 用 这 种 方法 为 所 有 的 原始 数值 类 型 实现 了 
Math.abs() 、Math.min() 和 Math.max() 函数 。 重 载 的 另 一 种 常见 用 法 是 为 函数 定义 两 个 
版 本 ， 其 中 一 个 需要 一 个 参数 而 另 一 个 则 为 该 参数 提供 一 个 默认 值 。 
口 方法 只 能 返回 一 个 值 ， 但 可 以 包含 多 个 返回 语 自 : 一 个 Java 方法 只 能 返回 一 个 值 ， 它 的 类 
型 是 方法 签名 中 声明 的 类 型 。 静 态 方法 第 一 次 执行 到 一 条 返回 语句 时 控制 权 将 会 回 到 调用 代 
码 中 。 尽 管 可 能 存在 多 条 返回 语句 ， 任 何 静态 方法 每 次 都 只 会 返回 一 个 值 ， 即 被 执行 的 第 一 
条 返回 语句 的 参数 。 
口 方法 可 以 产生 副作用 : 方法 的 返回 值 可 以 是 void， 这 表示 该 方法 没有 返回 值 。 返 回 值 为 
void 的 静态 函数 不 需要 明确 的 返回 语句 ， 方 法 的 最 后 一 条 语句 执行 完毕 后 控制 权 将 会 返回 
给 调用 方 。 我 们 称 void 类 型 的 静态 方法 会 产生 副作用 ( 接受 输入 、 产 生 输 出 、 修 改 数组 或 
者 改变 系统 状态 ) 。 例 如 ， 我 们 的 程序 中 的 静态 方法 main() 的 返回 值 就 是 void， 因 为 它 
的 作用 是 向 外 输出 。 技 术 上 来 说 ， 数 学 方法 的 返回 值 都 不 会 是 void ( Math.random() 虽然 
不 接受 参数 但 也 有 返回 值 ) 。 
2.1 节 所 述 的 实例 方法 也 拥有 这 些 性 质 ， 尽 管 两 者 在 副作用 方面 大 为 不 同 。 
1.1.6.4 递归 
方法 可 以 调用 自己 ( 如 果 你 对 递归 概念 感到 奇怪 ， 请 完成 练习 1.1.16 到 练习 1.1.22 ) 。 例 如 ， 
下 面 给 出 了 BinarySearch 的 rank() 方法 的 另 一 种 实现 。 我 们 会 经 常 使 用 递归 ， 因 为 递归 代码 比 
相应 的 非 递归 代码 更 加 简洁 优雅 、 易 懂 。 下 面 这 种 实现 中 的 注释 就 言 简 意 丹 地 说 明了 代码 的 作用 。 
我 们 可 以 用 数学 归纳 法 证 明 这 段 注释 所 解释 的 算法 的 正确 性 。 我 们 会 在 3.1 节 中 展开 这 个 话题 并 为 
二 分 查找 提供 一 个 这 样 的 证 明 。 
编写 递归 代码 时 最 重要 的 有 以 下 三 点 。 
口 递归 总 有 一 个 最 简单 的 情况 一 一 方法 的 第 一 条 语句 总 是 一 个 包含 return 的 条 件 语句 。 
口 递归 调用 总 是 去 尝试 解决 一 个 规模 更 小 的 子 问题 ， 这 样 递归 才能 收敛 到 最 简单 的 情况 。 在 下 
面 的 代码 中 ,第 四 个 参数 和 第 三 个 参数 的 差 值 一 直 在 缩小 。 
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口 递归 调用 的 父 问 题 和 尝试 解决 的 子 问题 之 间 不 应 该 有 交集 。 在 下 面 的 代码 中 ， 两 个 子 问题 各 
自 操作 的 数组 部 分 是 不 同 的 。 


public static int rank(int key, int[] a) 
{ return rank(key, a, 0, a.length - 1); } 


public static int rank(int key, int[] a, int lo, int hi) 
{ // 如 果 key 存 在 于 a[] 中 ， 它 的 索引 不 会 小 于 10 且 不 会 大 于 hi 


if (lo > hi) return -1; 
int mid = lo + (hi - 10) / 2; 


if (key < a[mid]) return rank(key, a, 10, mid - 1); 
else if (key > a[mid]) return rank(key, a, mid + 1, hi); 
else return mid; 
二 分 查找 的 递归 实现 25 














违背 其 中 任意 一 条 都 可 能 得 到 错误 的 结果 或 是 低 效 的 代码 ( 见 练习 1.1.19 和 练习 1.1.27) ， 而 
坚持 这 些 原则 能 写 出 清晰 、 正 确 且 容易 评估 性 能 的 程序 。 使 用 递归 的 另 一 个 原因 是 我 们 可 以 使 用 数 
学 模型 的 来 估计 程序 的 性 能 。 我 们 会 在 3.2 节 的 二 分 查找 以 及 其 他 几 个 地 方 分 析 这 个 问题 。 
1.1.6.5 ”基础 编程 模型 

静态 方法 库 是 定义 在 一 个 Java 类 中 的 一 组 静态 方法 。 类 的 声明 是 pub1ic class 加 上 类 名 ， 以 
及 用 花 括号 包含 的 静态 方法 。 存 放 类 的 文件 的 文件 名 和 类 名 相同 ， 扩 展 名 是 java。Java 开发 的 基本 
模式 是 编写 一 个 静态 方法 库 ( 包含 一 个 main() 方法 ) 来 完成 一 个 任务 。 输 入 java 和 类 名 以 及 一 系 
列 字符 串 就 能 调用 类 中 的 main() 方法 ， 其 参数 为 由 输入 的 字符 串 组 成 的 一 个 数组 。main() 的 最 后 

-条 语句 执行 完毕 之 后 程序 终止 。 在 本 书 中 ， 当 我 们 提 到 用 于 执行 一 项 任务 的 Java 程序 时 ， 我 们 指 
的 是 用 这 种 模式 开发 的 代码 ( 可 能 还 包括 对 数据 类 型 的 定义 ， 如 1.2 节 所 示 ) 。 例 如 ，BinarySearch 
就 是 一 个 由 两 个 静态 方法 rank() 和 main() 组 成 的 Java 程序 ， 它 的 作用 是 将 输入 中 所 有 不 在 通过 
命令 行 指定 的 白 名 单 中 的 数字 打印 出 来 。 
1.1.6.6 ”模块 化 编程 

这 个 模型 的 最 重要 之 处 在 于 通过 静态 方法 库 实现 了 模块 化 编程 。 我 们 可 以 构造 许多 个 静态 方法 
库 (模块 ) ， 一 个 库 中 的 静态 方法 也 能 够 调用 另 一 个 库 中 定义 的 静态 方法 。 这 能 够 带 来 许多 好 处 : 

口 程序 整体 的 代码 量 很 大 时 ， 每 次 处 理 的 模块 大 小 仍然 适中 ; 

口 可 以 共享 和 重用 代码 而 无 需 重新 实现 ; 

口 很 容易 用 改进 的 实现 替换 老 的 实现 ; 

口 可 以 为 解决 编程 问题 建立 合适 的 抽象 模型 ; 

口 缩小 调试 范围 ( 请 见 1.1.6.7 节 关 于 单元 测试 的 讨论 ) 。 

例如 ，BinarySearch 用 到 了 三 个 独立 的 库 ， 即 我 们 的 StdOut 和 StdIn 以 及 Java 的 Arrays， 而 这 
三 个 库 又 分 别 用 到 了 其 他 的 库 。 
1.1.6.7 单元 测试 

Java 编程 的 最 佳 实践 之 一 就 是 每 个 静态 方法 库 中 都 包含 一 个 main() 函数 来 测试 库 中 的 所 有 方 
法 (有些 编 程 语言 不 支持 多 个 mainQ 方法 ， 因 此 不 支持 这 种 方式 ) 。 恰 当 的 单元 测试 本 身 也 是 很 
有 挑战 性 的 编程 任务 。 每 个 模块 的 main() 方法 至 少 应 该 调用 模块 中 的 其 他 代码 并 在 某 种 程度 上 保 
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证 它 的 正确 性 。 随 着 模块 的 成 熟 ， 我 们 可 以 将 mainQ 方法 作为 一 个 开发 用 例 ， 在 开发 过 程 中 用 它 
来 测试 更 多 的 细节 ; 也 可 以 把 它 编 成 一 个 测试 用 例 来 对 所 有 代码 进行 全 面 的 测试 。 当 用 例 越 来 越 复 
杂 时 ， 我 们 可 能 会 将 它 独立 成 一 个 模块 。 在 本 书 中 ,我 们 用 mainC) 来 说 明 模块 的 功能 并 将 测试 用 
例 留 做 练习 。 
1.1.6.8 ”外 部 库 
我 们 会 使 用 来 自 4 个 不 同类 型 的 库 中 的 静态 方法 ， 重 用 每 种 库 代码 的 方式 都 稍 有 不 同 。 它 们 大 
多 都 是 静态 方法 库 ， 但 也 有 部 分 是 数据 类 型 的 定义 并 包含 了 一 些 静态 方法 。 
口 系统 标准 库 javalang.*: 这 其 中 包括 Math 库 , 实现 了 常用 的 数学 函数 ; Integer 和 Double 库 ， 
能 够 将 字符 串 转化 为 int 和 double 值 ，String 和 StringBuilder 库 ， 我 们 稍 后 会 在 本 节 和 第 
5 章 中 详细 讨论 ; 以 及 其 他 一 些 我 们 没有 用 到 的 库 。 
口 导入 的 系统 库 , 例 如 java.utils.Arrays: 每 个 标准 的 Java 版 本 中 都 含有 上 千 个 这 种 类 型 的 库 ， 
不 过 本 书 中 我 们 用 到 的 并 不 多 。 要 在 程序 的 开头 使 用 import 语句 导入 才能 使 用 这 些 库 (我 
们 也 是 这 样 做 的 ) 。 
口 本 书 中 的 其 他 库 : 例如 ， 其 他 程序 也 可 以 使 用 BinarySearch 的 rank() 方法 。 要 使 用 这 些 库 ， 
请 在 本 书 的 网 站 上 下 载 它们 的 源 代码 并 放 入 你 的 工作 目录 中 。 
口 我 们 为 本 书 ( 以 及 我 们 的 另 一 本 入 门 教材 4n Jniroduction 。 系统 标准 库 


to programming in Java: An Interdisciplinary Approach ) 开 Math  ， 
发 的 标准 库 Std*， 我 们 会 在 下 面 简要 地 介绍 这 些 库 ， 它 bon 
们 的 源 代码 和 使 用 方法 都 能 够 在 本 书 的 网 站 上 找到 。 String! 

要 调用 另 一 个 库 中 的 方法 ( 存放 在 相同 或 者 指定 的 目录 中 ， dr 


或 是 一 个 系统 标准 库 ， 或 是 在 类 定义 前 用 import 语句 导入 的 。 ”导入 的 系统 库 
库 ) ， 我 们 需要 在 方法 前 指定 库 的 名 称 。 例 如 ，BinarySearch 的 java, uell.Anraya 


main() 方法 调用 了 系统 库 java.utils.Arrays 的 sort() 方法 ， 我 ee 
们 的 库 StdIn 中 的 readInts() 方法 和 StdOut 库 中 的 print1n() StdOut 
StdDraw 
方法 。 StdRandom 
我 们 自己 及 他 人 使 用 模块 化 方式 编写 的 方法 库 能 够 极 大 地 扩 Stdstats 
展 我 们 的 编程 模型 .除了 在 Java 的 标准 版 本 中 可 用 的 所 有 库 之 外 ， Bt 


网 上 还 有 成 千 上 万 各 种 用 途 的 代码 库 。 为 了 将 我 们 的 编程 模型 限 -含有 办 态 方法 的 数据 类 型 的 定义 
制 在 一 个 可 控 范围 之 内 ， 以 将 精力 集中 在 算法 上 ， 我 们 只 会 使 用 本 书 使 用 的 含有 静态 方法 的 库 
以 下 所 示 的 方法 库 ， 并 在 1.1.7 节 中 列 出 了 其 中 的 部 分 方法 。 


1.1.7 API 


模块 化 编程 的 一 个 重要 组 成 部 分 就 是 记录 库 方法 的 用 法 并 供 其 他 人 参考 的 文档 。 我 们 会 统一 使 
用 应 用 程序 编程 接口 ( API) 的 方式 列 出 本 书 中 使 用 的 每 个 库 方法 名 称 、 签 名 和 简短 的 描述 。 我 们 
用 用 例 来 指 代 调用 另 一 个 库 中 的 方法 的 程序 ， 用 实现 描述 实现 了 某 个 API 方法 的 Java 代码 。 
1.1.7.1 举例 

在 表 1.1.6 的 例子 中 ,我 们 用 java.lang 中 Math 库 常 用 的 静态 方法 说 明 API 的 文档 格式 。 

这 些 方法 实现 了 各 种 数学 函数 一 一 它们 通过 参数 计算 得 到 某 种 类 型 的 值 ( random() 除外 ， 它 
没有 对 应 的 数学 函数 ， 因 为 它 不 接受 参数 ) 。 它 们 的 参数 都 是 double 类 型 且 返 回 值 也 都 是 doub1le 
类 型 ， 因 此 可 以 将 它们 看 做 double 数据 类 型 的 扩展 一 -这 种 扩展 的 能 力 正 是 现代 编程 语言 的 特性 
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之 一 。API 中 的 每 一 行 描述 了 一 个 方法 ， 提 供 了 使 用 该 方法 所 需要 知道 的 所 有 信息 。Math 库 也 定义 
了 常数 PI (圆周率 = ) 和 E ( 自然 对 数 e ) , 你 可 以 在 自己 的 程序 中 通过 这 些 变量 名 引用 它们 。 例 如 ， 
Math.sin(Math.PI/2) 的 结果 是 1.0，Math.1og(Math.E) 的 结果 也 是 1.0 ( 因为 Math.sin() 
的 参数 是 弧度 而 Math .10gQ 使 用 的 是 自然 对 数 函 数 ) 。 


表 1.1.6 Java 的 数学 函数 库 的 API (节选 ) 





public class Math 








static double abs(double a) a 的 绝对 值 
static double max(double a, double b) a 和 4b 中 的 较 大 者 
Static double min(double a, double b) a 和 4b 中 的 较 小 者 
注 1: abs()、max() 和 min() 也 定 又 了 int、long 和 float 的 版 本 

static double sin(double theta) 正 屁 函数 
static double cos(double theta) 余弦 函数 
static double tan(double theta) 正切 函数 





注 2: 角 用 跌 度 表示 ， 可 以 使 用 toDegrees() 和 toRadians() 转换 角度 和 弧度 。 
注 3; 它们 的 反 函 数 分 别 为 asin()、acos() 和 atan()。 














static double exp(double a) 指数 函数 (e) 
static double 1og(double a) 自然 对 数 函数 (loga， 即 ina) 
static double pow(double a, double b) 求 a 的 b 次 方 () 
static double random() [0, 1) 之 间 的 随机 数 
static double sqrt(double a) a 的 平方 根 
static double E 常数 e (常数 ) 
static double PI 常数 (常数 ) 28 
其 他 函 教 请 见 本 书 的 网 站 
1.1.7.2 Java 库 


成 千 上 万 个 库 的 在 线 文档 是 Java 发 布 版 本 的 一 部 分 。 为 了 更 好 地 描述 我 们 的 编程 模型 ， 我 们 只 
是 从 中 节选 了 本 书 所 用 到 的 若干 方法 。 例 如 ，BinarySearch 中 用 到 了 Java 的 Arrays 库 中 的 sort() 
方法 ， 我 们 对 它 的 记录 如 表 1.1.7 所 示 。 


表 1.1.7 Java 的 Arrays 库 节选 (java.util.Arrays) 
public class Arrays 
static void sort(int[] a) 将 数组 按 升序 排序 
注 : 其 他 原始 类 型 和 Object 对 象 也 有 对 应 版 本 的 方法 。 


Arrays 库 不 在 java.lang 中 ， 因 此 我 们 需要 用 import 语句 导入 后 才能 使 用 它 ， 与 BinarySearch 
中 一 样 。 事 实 上 ， 本 书 的 第 2 章 讲 的 正 是 数组 的 各 种 sort0) 方法 的 实现 ， 包 括 Arrays.sort() 中 
实现 的 归并 排序 和 快速 排序 算法 。Java 和 很 多 其 他 编程 语言 都 实现 了 本 书 讲解 的 许多 基础 算法 。 例 
如 ，Arrays 库 还 包含 了 二 分 查找 的 实现 。 为 避免 混淆 ， 我 们 一 般 会 使 用 自己 的 实现 ， 但 对 于 你 已 经 
掌握 的 算法 使 用 高 度 优化 的 库 实现 当然 也 没有 任何 问题 。 从 
1.1.7.3 ”我 们 的 标准 库 

为 了 介绍 Java 编程 、 为 了 科学 计算 以 及 算法 的 开发 、 学 习 和 应 用 ， 我 们 也 开发 了 若干 库 来 提供 
一 些 实用 的 功能 。 这 些 库 大 多 用 于 处 理 输入 和 输出。 我们 也 会 使 用 以 下 两 个 库 来 测试 和 分 析 我 们 的 实 
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现 。 第 一 个 库 扩展 了 Math. random() 方法 ( 见 表 1.1.8 ) ， 以 根据 不 同 的 概率 密度 函数 得 到 随机 值 ; 
第 二 个 库 则 支持 各 种 统计 计算 ( 见 表 1.1.9 ) 。 


表 1.1.8 我 们 的 随机 数 静 态 方法 库 的 API 





public class StdRandom 





static void initialize(long seed) 初始 化 

static double random() 0 到 1 之 间 的 实数 

static int uniform(Cint N) 0 到 N-1 之 同 的 整数 

static int uniformCint 10, int hi) 1o 到 hi-1 之 间 的 整数 

static double uniform(double 1o，double hi) 1o 到 hi 之 间 的 实数 

static boolean bernoulli(double p) 返回 真 的 概率 为 p 

static double gaussian() 正 态 分 布 ， 期 望 值 为 0， 标准 差 为 1 
static double gaussian(double m, double s) 正 态 分 布 ， 期 望 值 为 m， 标 准 差 为 s 
static int discrete(double[] a) 返回 1 的 概率 为 a[i] 

static void shuffle(double[] a) 将 数组 a 随机 排序 


注 ; 库 中 也 包含 为 其 他 原始 类 型 和 Object 对 象 重 械 的 Shuffle() 函 教 


表 1.1.9 我 们 的 数据 分 析 静 态 方法 库 的 API 
public class StdStats 





Static double max(double[] a) 最 大 值 
static double min(double[] a) 最 小 值 
Static double mean(double[] a) 平均 值 
static double var(double[] a) 采样 方差 
static double stddev(double[] a) 采样 标准 差 
static double median(double[] a) 中 位 数 


StdRandom 的 initialize() 方法 为 随机 数 生成 器 提供 种 子 。 这 样 我 们 就 可 以 重复 和 随机 数 有 
关 的 实验 。 以 上 一 些 方法 的 实现 请 参考 表 1.1.10。 有 些 方法 的 实现 非常 简单 ， 为 什么 还 要 在 方法 库 
中 实现 它们 ? 设计 良好 的 方法 库 对 这 个 问题 的 标准 回答 如 下 。 
口 这 些 方法 所 实现 的 抽象 层 有 助 于 我 们 将 精力 集中 在 实现 和 测试 本 书 中 的 算法 ， 而 非 生 成 随机 
数 或 是 统计 计算 。 每 次 都 自己 写 完成 相同 计算 的 代码 ， 不 如 直接 在 用 例 中 调用 它们 要 更 简洁 
易 懂 。 
口 方法 库 会 经 过 大 量 测试 ， 覆 盖 极 端 和 罕见 的 情况 ， 是 我 们 可 以 信任 的 。 这 样 的 实现 需要 大 量 
的 代码 。 例 如 ， 我 们 经 常 需要 使 用 的 各 种 数据 类 型 的 实现 ， 又 比如 Java 的 Arrays 库 针对 不 
同 数据 类 型 对 sort() 进行 了 多 次 重 载 。 
这 些 是 Java 模 块 化 编程 的 基础 ,不 过 在 这 里 可 能 有 些 夸张 但 这 些 方法 库 的 方法 名 称 简单 实现 容易 ， 
其 中 一 些 仍然 能 作为 有 趣 的 算法 练习 。 因 此 ， 我 们 建议 你 到 本 书 的 网 站 上 去 学 习 一 下 StdRandom. 
java 和 StdStatsjava 的 源 代码 并 好 好 利用 这 些 经 过 验证 了 的 实现 。 使 用 这 些 库 (以 及 检验 它们 ) 最 
简单 的 方法 就 是 从 网 站 上 下 载 它们 的 源 代码 并 放 入 你 的 工作 目录 。 网 站 上 讲解 了 在 各 种 系统 上 使 用 
它们 的 配置 目录 的 方法 。 
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表 1.1.10 StdRandom 库 中 的 静态 方法 的 实现 
期 望 的 结果 实 现 


随机 返回 [a,b) 之 间 的 一 个 double 值 public static double uniform(double a, double b) 
{ return a + StdRandom.random() * (b-a); } 








随机 返回 [0. .N) 之 间 的 一 个 int 值 public static int uniformCint N) 
{ return (int) (StdRandom.random() * N); } 





随机 返回 [10,hi) 之 间 的 一 个 int 值 public static int uniform(int 10o, int hi) 
{ return lo + StdRandom.uniform(hi - 10); } 





public static int discrete(double[] a) 
{ // a[] 中 各 元 素 之 和 必须 等 于 1 
double r = StdRandom.random(); 
double sum = 0.0; 


根据 离散 概率 随机 返回 的 int 值 ( 出现 eT A he ey, 
的 概率 为 a[i] ) 


sum = sum + a[i]; 
if (sum >= r) return i; 


return -1; 


} 





public static void shuffle(double[] a) 
{ 

int N = a.length; 

for (int 1 = 0; i < N; i++) 

{ // 彰 a[i] 和 a[i..N-1] 中 任意 一 个 元 素 交换 
int r = i + StdRandom.uniform(N-i); 
double temp ~ a[i]; 

a[i] = a[r]; 
a[r] = temp; 


随机 将 double 数组 中 的 元 素 排序 ( 请 见 
练习 1.1.36) 


1.1.7.4 ”你 自己 编写 的 库 
你 应 该 将 自己 编写 的 每 一 个 程序 都 当做 一 个 日 后 可 以 重用 的 库 。 
口 编写 用 例 ， 在 实现 中 将 计算 过 程 分 解 成 可 控 的 部 分 。 
口 明确 静态 方法 库 和 与 之 对 应 的 API ( 或 者 多 个 库 的 多 个 API ) 。 
口 实现 API 和 一 个 能 够 对 方法 进行 独立 测试 的 main() 函数 。 

这 种 方法 不 仅 能 帮助 你 实现 可 重用 的 代码 ， 而 且 能 够 教会 你 如 何 运用 模块 化 编程 来 解决 一 个 复 |31 
杂 的 问题 。 32 
API 的 目的 是 将 调用 和 实现 分 离 : 除了 API 中 给 出 的 信息 , 调用 者 不 需要 知道 实现 的 其 他 细节 ， 

而 实现 也 不 应 考虑 特殊 的 应 用 场景 。API 使 我 们 能 够 广泛 地 重用 那些 为 各 种 目的 独立 开发 的 代码 。 

没有 任何 一 个 Java 库 能 够 包含 我 们 在 程序 中 可 能 用 到 的 所 有 方法 ， 因 此 这 种 能 力 对 于 编写 复杂 的 应 

用 程序 特别 重要 。 相 应 地 ， 程 序 员 也 可 以 将 API 看 做 调用 和 实现 之 间 的 一 份 契约 ， 它 详细 说 明了 每 

个 方法 的 作用 。 实 现 的 目标 就 是 能 够 遵守 这 份 契 约 。 一 般 来 说 ， 做 到 这 一 点 有 很 多 种 方法 ， 而 且 将 

调用 者 的 代码 和 实现 的 代码 分 离 使 我 们 可 以 将 老 算法 替换 为 更 新 更 好 的 实现 。 在 学 习 算法 的 过 程 中 ， 

这 也 使 我 们 能 够 感受 到 算法 的 改进 所 带 来 的 影响 。 3 
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1.1.8 字符 串 

字符 串 是 由 一 串 字符 ( char 类 型 的 值 ) 组 成 的 。 一 个 String 类 型 的 字面 量 包括 一 对 双 引号 和 
其 中 的 字符 , 比如 "He110，Wor1d"。String 类 型 是 Java 的 一 个 数据 类 型 , 但 并 不 是 原始 数据 类 型 。 
我 们 现在 就 讨论 String 类 型 是 因为 它 非常 基础 ， 几 乎 所 有 Java 程序 都 会 用 到 它 。 
1.1.8.1 字符 串 拼接 

和 各 种 原始 数据 类 型 一 样 ，Java 内 置 了 一 个 串联 String 类 型 字符 串 的 运算 符 (+ ) 。 表 1.1.11 
是 对 表 1.1.2 的 补充 。 拼 接 两 个 String 类 型 的 字符 串 将 得 到 一 个 新 的 String 值 ， 其 中 第 一 个 字符 
串 在 前 ， 第 二 个 字符 串 在 后 。 

表 1.1.11 Java 的 String 数据 类 型 


— -- - 
类 型 值 域 举例 运算 符 i] 
















表达 式 值 
String - 串 字 符 "AB” + (拼接 ) "+ "Bob"” "Hi, Bob" 
"Hello”" + "34， "1234" 
25" A a 
1.1.8.2 ”类 型 转换 


字符 串 的 两 个 主要 用 途 分 别 是 将 用 户 从 键盘 输入 的 内 容 转换 成 相应 数据 类 型 的 值 以 及 将 各 种 数 
据 类 型 的 值 转化 成 能 够 在 屏幕 上 显示 的 内 容 。Java 的 String 类 型 为 这 些 操作 内 置 了 相应 的 方法 ， 
而 且 Integer 和 Double 库 还 包含 了 分 别 和 String 类 型 相互 转化 的 静态 方法 ( 见 表 1.1.12 ) 。 


表 1.1.12 String 值 和 数字 之 间 相互 转换 的 API 





public class Integer 











static int parseInt(String s) 将 字符 申 s 转换 为 整数 

static String toStringCint i) 将 整数 i 转换 为 字符 趾 
public class Double 

static double parseDouble(String s) 将 字符 串 5 转换 为 浮 点 数 

static String toString(double x) 将 浮 点 数 x 转换 为 字符 串 
1.1.8.3 自动 转换 


我 们 很 少 明确 使 用 刚才 提 到 的 toString() 方法 ， 因 为 Java 在 连接 字符 串 的 时 候 会 自动 将 任 
意 数据 类 型 的 值 转换 为 字符 串 : 如 果 加 号 (+ ) 的 一 个 参数 是 字符 串 ， 那 么 Java 会 自动 将 其 他 参 
数 都 转换 为 字符 串 (如 果 它们 不 是 的 话 ) 。 除 了 像 "The square root of 2.0 is " + Math. 
sqrt(2.0) 这 样 的 使 用 方式 之 外 ， 这 种 机 制 也 使 我 们 能 够 通过 一 个 空 字符 串 "" 将 任意 数据 类 型 的 
值 转换 为 字符 串 值 。 
1.1.8.4 ”命令 行 参数 

在 Java 中 字符 串 的 一 个 重要 的 用 途 就 是 使 程序 能 够 接收 到 从 命令 行 传递 来 的 信息 。 这 种 机 制 很 
简单 。 当 你 输入 命令 java 和 一 个 库 名 以 及 一 系列 字符 串 之 后 ，Java 系统 会 调用 库 的 main() 方法 
并 将 那 一 系列 字符 囊 变 成 一 个 数组 作为 参数 传递 给 它 。 例 如 ，BinarySearch 的 main() 方法 需要 一 
个 命令 行 参数 ， 因 此 系统 会 创建 一 个 大 小 为 1 的 数组 。 程 序 用 这 个 值 ， 也 就 是 args[0] ， 来 获取 白 
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名 单 文件 的 文件 名 并 将 其 作为 StdIn. readInts() 的 参数 。 另 一 种 在 我 们 的 代码 中 常见 的 用 法 是 当 
命令 行 参数 表示 的 是 数字 时 ， 我 们 会 用 parseInt() 和 parseDoubleQ 方法 将 其 分 别 转换 为 整数 
和 浮 点 数 。 
字符 串 的 用 法 是 现代 程序 中 的 重要 部 分 。 现 在 我 们 还 只 是 用 String 在 外 部 表示 为 字符 串 的 数 
字 和 内 部 表示 为 数字 类 数据 类 型 的 值 进行 转换 。 在 1.2 节 中 我 们 会 看 到 Java 为 我 们 提供 了 非常 丰富 
的 字符 串 操作 ; 在 1.4 节 中 我 们 会 分 析 String 类 型 在 Java 内 部 的 表示 方法 ; 在 第 5 章 我 们 会 深入 
学 习 处 理 字符 串 的 各 种 算法 。 这 些 算法 是 本 书 中 最 有 趣 、 最 复杂 也 是 影响 力 最 大 的 一 部 分 算法 。 2 


1.1.9 输入 输出 

我 们 的 标准 输入 、 输 出 和 绘图 库 的 作用 是 建立 一 个 Java 程序 和 外 界 交流 的 简易 模型 。 这 些 库 的 
基础 是 强大 的 Java 标准 库 ， 但 它们 一 般 更 加 复杂 ， 学 习 和 使 用 起 来 都 更 加 困难 。 我 们 先 来 简单 地 了 
解 一 下 这 个 模型 。 

在 我 们 的 模型 中 ，Java 程序 可 以 从 命令 行 参 数 或 者 一 个 名 为 标准 输入 流 的 抽象 字符 流 中 获得 输 
入 ， 并 将 输出 写 人 另 一 个 名 为 标准 输出 流 的 字符 流 中 。 

我 们 需要 考虑 Java 和 操作 系统 之 间 的 接口 ， 因 此 我 
们 要 简要 地 讨论 一 下 大 多 数 操作 系统 和 程序 开发 环境 所 
提供 的 相应 机 制 。 本 书 网 站 上 列 出 了 关于 你 所 使 用 的 系 
统 的 更 多 信息 。 默 认 情况 下 ， 命 令 行 参数 、 标 准 输入 和 
标准 输出 是 和 应 用 程序 绑 定 的 ， 而 应 用 程序 是 由 能 够 接 
受命 令 输 入 的 操作 系统 或 是 开发 环境 所 支持 。 我 们 笼统 
地 用 终端 来 指 代 这 个 应 用 程序 提供 的 供 输入 和 显示 的 窗 [= 
口 。20 世纪 70 年 代 早期 的 Unix 系统 已 经 证 明 我 们 可 以 文 作 JO 
用 这 个 模型 方便 直接 地 和 程序 以 及 数据 进行 交互 。 我 们 | 
在 经 典 的 模型 中 加 入 了 一 个 标准 绘图 模块 用 来 可 视 化 表 
示 对 数据 的 分 析 ， 如 图 1.1.3 所 示 。 
1.1.9.1 命令 和 参数 

终端 窗口 包含 一 个 提示 符 ， 通 过 它 我 们 能 够 向 操作 系统 输入 命令 和 参数 。 本 书 中 我 们 只 会 用 到 
几 个 命令 , 如 表 1.1.13 所 示 。 我 们 会 经 常 使 用 java 命令 来 运行 我 们 的 程序 。 我 们 在 1.1.8.4 节 中 提 到 过 ， 
Java 类 都 会 包含 一 个 静态 方法 main() ， 它 有 一 个 String 数组 类 型 的 参数 args[] 。 这 个 数组 的 内 
容 就 是 我 们 输入 的 命令 行 参数 ,操作 系统 会 将 它 传递 给 Java。Java 和 操作 系统 都 默认 参数 为 字符 串 。 
如 果 我 们 需要 的 某 个 参数 是 数字 ， 我 们 会 使 用 类 似 Integer.parseInt() 的 方法 将 其 转换 为 适当 的 
数据 类 型 的 值 。 图 1.1.4 是 对 命令 的 分 析 。 


表 1.1.13 操作 系统 常用 命令 





























图 1.1.3 Java 程序 整体 结构 





命 令 参 数 作 用 

javac java 文件 名 编译 Java 程序 

java -class 文件 名 ( 不 需要 扩展 名 ) 运行 Java 程序 
和 命令 行 参数 





more 任意 文本 文件 名 打印 文件 内 容 36 
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1.1.9.2 ”标准 输出 

我 们 的 StdOut 库 的 作用 是 支持 标准 输出 。 一 般 
来 说 ， 系 统 会 将 标准 输出 打印 到 终端 窗口 。printO 
方法 会 将 它 的 参数 放 到 标准 输出 中 ; println0) 方法 
会 附加 一 个 换行 符 ; printf0 方法 能 够 格式 化 输出 
( 见 1.1.9.3 节 ) 。Java 在 其 System.out 库 中 提供 了 类 
似 的 方法 ， 但 我 们 会 用 StdOut 库 来 统一 处 理 标准 输 
人 和 输出 (并 进行 了 一 些 技术 上 的 改进 ) , 见 表 1.1.4。 











5 200.0 
args[0] 
调用 Java args[1] 
args[2] 
图 1.1.4 命令 详解 


表 1.1.14 我们 的 标准 输出 库 的 静态 方法 的 API 


public class StdOut 





static void print(String s) 打印 s 

static void println(String s) 打印 s 并 接 一 个 换行 符 
static void print1n() 打印 一 个 换行 符 
static void printf(String f, ...) 格式 化 输出 


注 : 其 他 原始 类 型 和 Object 对 象 也 有 对 应 版 本 的 方法 。 


要 使 用 这 些 方法 ， 请 从 本 书 的 网 站 上 将 StdOutjava 下 载 到 你 的 工作 目录 ， 并 像 StdOut .print1n 
C"He110，Wor1d"); 这 样 在 代码 中 调用 它们 。 左 下 方 的 程序 就 是 一 个 例子 。 


1.1.9.3 格式 化 输出 


在 最 简单 的 情况 下 printf() 方法 接受 两 个 参数 。 第 一 个 参数 是 一 个 格式 字符 事 ， 描 述 了 第 二 
个 参数 应 该 如 何在 输出 中 被 转换 为 一 个 字符 串 。 最 简单 的 格式 字符 串 的 第 一 个 字符 是 % 并 紧 跟 一 个 
字符 表示 的 转换 代码 。 我 们 最 常 使 用 的 转换 代码 包括 d ( 用 于 Java 整 型 的 十 进 制 数 ) 、f ( 浮 点 型 ) 


public class RandomSeq 


public static void main(String[] args) 
所 // 打印 N 个 (10，hi) 之 间 的 随机 值 
int N = Integer.parseInt(args[0]); 
double lo = Double.parseDouble(args[1]); 
double hi = Double.parseDoubleCargs[2]); 
for (int 1 = 0; i < N; i++) 
double x = StdRandom.uniform(1o, hi); 
StdOut.printf("%.2f\n", x); 


StdOut 的 用 例 示例 


和 s (字符 串 ) 。 在 % 和 转换 代码 之 
间 可 以 插入 一 个 整数 来 表示 转换 之 后 
的 值 的 宽度 ， 即 输出 字符 串 的 长 度 。 
默认 情况 下 ， 转 换 后 会 在 字符 串 的 左 
边 添加 空格 以 达到 需要 的 宽度 ， 如 果 
我 们 想 在 右边 加 入 空格 则 应 该 使 用 负 
宽度 ( 如 果 转 换 得 到 的 字符 串 比 设 定 
宽度 要 长 ， 宽 度 会 被 忽略 ) 。 在 宽度 
之 后 我 们 还 可 以 插入 一 个 小 数 点 以 
及 一 个 数值 来 指定 转换 后 的 double 
值 保留 的 小 数位 数 ( 精度 ) 或 是 
String 字符 串 所 截取 的 长 度 。 使 用 





二 











% java RandomSeq 5 100.0 200.0 
123.43 
153.13 
144.38 
155.18 
104.02 


printfQ 方法 时 需要 记 住 的 最 重要 的 一 点 就 是 ， 格 式 
字符 事 中 的 转换 代码 和 对 应 参数 的 数据 类 型 必须 匹配 。 
也 就 是 说 ，Java 要 求 参数 的 数据 类 型 和 转换 代码 表示 
的 数据 类 型 必须 相同 。printfO) 的 第 一 个 String 字 
符 串 参数 也 可 以 包含 其 他 字符 。 所 有 非 格式 字符 串 的 
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字符 都 会 被 传递 到 输出 之 中 , 而 格式 字符 串 则 会 被 参数 的 值 所 替代 ( 按照 指定 的 方式 转换 为 字符 串 )。 


例如 ， 这 条 语句 : 


StdOut.printf("PI is approximately %.2f\n", Math.PI); 


会 打印 出 : 


PI is approximately 3.14 


可 以 看 到 ,在 printf0) 中 我 们 需要 明确 地 在 第 一 个 参数 的 末尾 加 上 \n 来 换行 。printf() 函数 
能 够 接受 两 个 或 者 更 多 的 参数 。 在 这 种 情况 下 ， 在 格式 化 字符 串 中 每 个 参数 都 会 有 对 应 的 转换 代 
码 ， 这 些 代码 之 间 可 能 隔 着 其 他 会 被 直接 传递 到 输出 中 的 字符 。 也 可 以 直接 使 用 静态 方法 String. 
format() 来 用 和 printf() 相同 的 参数 得 到 一 个 格式 化 字符 串 而 无 需 打印 它 。 我 们 可 以 用 格式 化 
打印 方便 地 将 实验 数据 输出 为 表格 形式 (这 是 它们 在 本 书 中 的 主要 用 途 ) ， 如 表 1.1.15 所 示 。 


表 1.1.15 printf() 的 格式 化 方式 (更 多 选项 请 见 本 书 网 站 ) 





























数据 类 型 转换 代码 举例 格式 化 字符 串 举 例 转换 后 输出 的 字符 串 
风 了 512” 
int d 512 "512 " 
f ot 1595.17" 
double 条 1595.1680010754388 "1595.1680011" 
™ 1.5952e+03" 
” Hello, World" 
String S "Hello, World” "Hello, World " 
"Hello ut Gg] 
1.1.9.4 “标准 输入 
我 们 的 Stdin 库 从 标准 输入 
流 中 获取 数据 ， 这 些 数据 可 能 为 。 RobTic cass Average 
3 字符 分 public static void main(String[] args) 
4 - { // 取 StdIn 中 所 有 数 的 平均 值 
空格 、 制 表 符 、 换 行 符 Mr 
等 ) 。 默 认 状态 下 系统 会 将 标准 jn nt 0 
输出 定向 到 终端 窗口 一 你 输入 pas 


的 内 容 就 是 输入 流 ( 由 <ctr1-d> 
或 <ctr1-z> 结束 ， 取 决 于 你 使 
用 的 终端 应 用 程序 ) 。 这 些 值 可 
能 是 String 或 是 Java 的 某 种 原 
始 类 型 的 数据 。 标 准 输入 流 最 重 
要 的 特点 是 这 些 值 会 在 你 的 程序 
读 取 它们 之 后 消失 。 只 要 程序 读 


sum += StdIn.readDoubleO; 

Cnt++; 
} 
double avg = sum / cnt; 
StdOut.printf("Average is %.5f\n", avg); 


StdIn 的 用 例 举例 


取 了 一 个 值 ， 它 就 不 能 回 退 并 再 次 读 取 它 。 这 个 特点 产生 了 一 些 
限制 但 它 反 映 了 一 些 输入 设备 的 物理 特性 并 简化 了 对 这 些 设备 
的 抽象 。 有 了 输入 流 模 型 ， 这 个 库 中 的 静态 方法 大 都 是 自 文档 化 
的 《它们 的 签名 即 说 明了 它们 的 用 途 ) 。 右 侧 列 出 了 StdIn 的 一 
个 用 例 。 

表 1.1.16 详细 说 明了 标准 输入 库 中 的 静态 方法 的 API。 


% java Average 
1.23456 
2.34567 
3.45678 
4.56789 
<ctrl-d> 
Average is 2.90123 
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表 1.1.16 标准 输入 库 中 的 静态 方法 的 API 





Public class StdIn 





static boolean isEmptyO 如 果 输 入 流 中 没有 剩余 的 值 则 返回 true， 否 则 返回 false 
static int readInt() 读 取 一 个 int 类 型 的 值 
static double readDoubleO 读 取 一 个 double 类 型 的 值 
static float readFloat() 读 取 一 个 float 类 型 的 值 
static long readLong() 读 取 一 个 1ong 类 型 的 值 
static boolean readBoolean() 读 取 一 个 boolean 类 型 的 值 
static char readCharQO 读 取 一 个 char 类 型 的 值 
Static byte readByte() 读 取 一 个 byte 类 型 的 值 
Static String readString() 读 取 一 个 String 类 型 的 值 
static boolean hasNextLine() 输入 流 中 是 否 还 有 下 一 行 
static String readLine() 读 取 该 行 的 其 余 内 容 
Static String readAl1(O) 读 取 输入 流 中 的 其 余 内 容 


1.1.9.5 重 定向 与 管道 

标准 输入 输出 使 我 们 能 够 利用 许多 操作 系统 都 支持 的 命令 行 的 扩展 功能 。 只 需要 向 启动 程序 的 
命令 中 加 入 一 个 简单 的 提示 符 ， 就 可 以 将 它 的 标准 输出 重 定向 至 一 个 文件 。 文 件 的 内 容 既 可 以 永久 
保存 也 可 以 在 之 后 作为 另 一 个 程序 的 输入 : 

% java RandomSeq 1000 100.0 200.0 > data.txt 

这 条 命令 指明 标准 输出 流 不 是 被 打印 至 终端 窗口 ， 而 是 被 写 和 一 个 叫做 data.txt 的 文件 。 每 次 
调用 Stdout .print() 或 是 StdOt.print1n() 都 会 向 该 文件 追加 一 段 文本 。 在 这 个 例子 中 ， 我 们 
最 后 会 得 到 一 个 含有 1000 个 随机 数 的 文件 。 终 端 窗口 中 不 会 出 现任 何 输出 :它们 都 被 直接 写 人 了 
“>” 号 之 后 的 文件 中 。 这 样 我 们 就 能 将 信息 存储 以 备 下 次 使 用 。 请 注意 不 需要 改变 RandomSeq 的 
任何 内 容 一 一 它 使 用 的 是 标准 输出 的 抽象 ， 因 此 它 不 会 因为 我 们 使 用 了 该 抽象 的 另 一 种 不 同 的 实现 
而 受到 影响 。 类 似 ， 我 们 可 以 重 定 向 标准 输入 以 使 StdIn 从 文件 而 不 是 终端 应 用 程序 中 读 取 数据 ， 

% java Average < data.txt 

这 条 命令 会 从 文件 data.txt 中 读 取 一 系列 数值 并 计算 它们 的 平均 值 。 具 体 来 说 ，“<” 号 是 一 个 
提示 符 ， 它 告诉 操作 系统 读 取 文本 文件 data.txt 作为 输入 流 而 不 是 在 终端 窗口 中 等 待 用 户 的 输入 。 
当 程 序 调用 StdIn. readDouble() 时 ， 操 作 系统 读 取 的 是 文件 中 的 值 。 将 这 些 结合 起 来 ， 将 一 个 程 
序 的 输出 重 定向 为 另 一 个 程序 的 输入 叫做 管道 : 

% java RandomSeq 1000 100.0 200.0 | java Average 

这 条 命令 将 RandomSeq 的 标准 输出 和 Average 的 标准 输入 指定 为 同一 个 流 。 它 的 效果 是 好 像 
在 Average 运行 时 RandomSeq 将 它 生成 的 数字 输入 了 终端 窗口 。 这 种 差别 影响 非常 深远 ， 因 为 它 突 
破 了 我 们 能 够 处 理 的 输入 输出 流 的 长 度 限制 。 例 如 ， 即 使 计算 机 没有 足够 的 空间 来 存储 十 亿 个 数 ， 
我 们 仍然 可 以 将 例子 中 的 1000 换 成 1 000 000 000 ( 当然 我 们 还 是 需要 一 些 时 间 来 处 理 它们 ) 。 当 
RandomSeq 调用 StdOut.print1n() 时 ， 它 就 向 输出 流 的 末尾 添加 了 一 个 字符 串 ， 当 Average 调用 
StdIn.readInt() 时 ， 它 就 从 输入 流 的 开头 删除 了 一 个 字符 串 。 这 些 动作 发 生 的 实际 顺序 取决 于 
操作 系统 : 它 可 能 会 先 运行 RandomSeq 并 产生 一 些 输出 ， 然 后 再 运行 Average， 来 消耗 这 些 输出 ， 
或 者 它 也 可 以 先 运行 Average， 直 到 它 需 要 一 些 输入 然后 再 运行 RandomSeq 来 产生 一 些 输出 。 虽 然 
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最 后 的 结果 都 一 样 ， 但 我 们 的 程序 就 不 。 将 一 个 文件 重 定 向 为 标准 输入 
再 需要 担心 这 些 细节 ， 因 为 它们 只 会 和 % java Average < data.txt 




















标准 输入 和 标准 输出 的 抽象 打交道 。 a 
图 1.1.5 总 结 了 重 定向 与 管道 的 4 
过 程 。 Average 











1.1.9.6 ”基于 文件 的 输入 输出 
我 们 的 二 和 Ow 亩 提供 了 一 些 静 a ee as 
态 方法 ， 来 实现 向 文件 中 写 人 或 从 文件 
中 读 取 一 个 原始 数据 类 型 (或 String RandomSeq 
类 型 ) 的 数组 的 抽象 。 我 们 会 使 用 也 L— ata. tx 
库 中 的 readInts() 、readDoublesO) 标准 输出 
和 readStringsO 以 及 Out 库 中 的 
writeInts()、writeDoubles() 和 将 一 个 程序 的 输出 通过 管道 作为 另 一 个 程序 的 输入 
writeStrings() 方法 ， 参 数 可 以 是 文 。% java RandomSeq 1000 100.0 200.0 | java Average 
件 或 网 页 如 表 1.1.17 所 示 。 例 如 ， 借 此 RandomSeq 
我 们 可 以 在 同一 个 程序 中 分 别 使 用 文件 
和 标准 输入 达到 两 种 不 同 的 目的 ， 例 如 CD 
























































标准 输出 。 |->[ 标准 输入 hh 
































BinarySearch。In 和 Out 两 个 库 也 实现 了 
了 一 些 数据 类 型 和 它们 的 实例 方法 ， 这 
使 我 们 能 够 将 多 个 文件 作为 输入 输出 流 图 1.1.5 命令 行 的 重 定向 与 管道 
并 将 网 页 作为 输入 流 ， 我 们 还 会 在 1.2 
节 中 再 次 考察 它们 。 
表 1.1.17 我们 用 于 读 取 和 写 入 数组 的 静态 方法 的 API 
public class In 
static int[] readInts(String name) 读 取 多 个 int 值 
static double[] readDoubles(String name) 读 取 多 个 double 值 
static String[] readStrings(String name) 读 取 多 个 String 什 
public class Out 
static void write(int[] ，String name) 写 入 多 个 int 值 
static void write(doule[] a, String name) 写 入 多 个 double 值 
static void write(String[] a, String name) 写 入 多 个 String 值 
注 1: 库 也 支持 其 他 原始 数据 类 型 。 41 











注 2: 库 也 支持 StdIn 和 StdOut (忽略 name 参数 ) 


1.1.9.7 ”标准 绘图 库 〈 基 本 方法 ) 

目前 为 止 ,我 们 的 输入 输出 抽象 层 的 重点 只 有 文本 字符 串 。 现 在 我 们 要 介绍 一 个 产生 图 像 输 
出 的 抽象 层 。 这 个 库 的 使 用 非常 简单 并 且 人 允许 我 们 利用 可 视 化 的 方式 处 理 比 文字 丰富 得 多 的 信息 。 
和 我 们 的 标准 输入 输出 一 样 ， 标 准 绘图 抽象 层 实现 在 库 StdDraw 中 ， 可 以 从 本 书 的 网 站 上 下 载 
StdDrawjava 到 你 的 工作 目录 来 使 用 它 。 标 准 绘图 库 很 简单 : 我 们 可 以 将 它 想象 为 一 个 抽象 的 能 够 
在 二 维 画 布 上 夯 出 点 和 直线 的 绘图 设备 。 这 个 设备 能 够 根据 程序 调用 的 StdDraw 中 的 静态 方法 画 出 
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一 些 基本 的 几何 图 形 ， 这 些 方 
法 包括 画 出 点 、 直 线 、 文 本 字 
符 串 、 圆 、 长 方形 和 多 边 形 等 。 
和 标准 输入 输出 中 的 方法 一 
样 ， 这 些 方法 几乎 也 都 是 自 文 
档 化 的 : StdDraw.1ine0) 能 
够 根据 参数 的 坐标 画 出 一 条 连 
接点 ko yo) 和 点 (xi, yn) 的 线段 ， 
StdDraw.point() 能 够 根据 参 
数 坐标 画 出 一 个 以 (x, yy) 为 中 
心 的 点 , 等 等 , 如 图 1.1.6 所 示 。 
几何 图 形 可 以 被 填充 ( 默认 为 
黑色 ) 。 默 认 的 比例 尺 为 单位 
正方 形 ( 所 有 的 坐标 均 在 0 和 
1 之 间 ) 。 标 准 的 实现 会 将 画 
布 显示 为 屏幕 上 的 一 个 窗口 ， 

点 和 线 为 黑色 ， 背景 为 白色 。 


StdDraw. point (x0, y0); 


StdDraw.circle(x, y, r); 
StdDraw. line(x1, yl, x2, y2); A 


局 
(1, D” 
CC C0) 
~ \ Gy 
wo 0) 人 为) 


double[] x = {x0, x1, x2, x3}; 
double[] y = {y0, y1, y2, y3}; 


StdDraw. square(x, y, r); StdDraw. polygon(x, y); 


Co 
[0 


(x) 


GC» [2 


图 1.1.6 StdDraw 的 用 法 举例 


表 1.1.18 是 对 标准 绘图 库 中 静态 方法 API 的 汇总 。 


表 1.1.18 标准 绘图 库 的 静态 〈 绘 图 ) 方法 的 API 
i 


public class StdDraw 





static void 
static void 
static void 
static void 
static void 
static void 
static void 
static void 
static void 
static void 
static void 
static void 
static void 


1.1.9.8 ”标准 绘图 库 〈 控 制 方法 ) 


Tine(double x0, double y0, double x1, double y1) 
point(double x, double y) 

text(double x, double y, String s) 

circle(double x, double y, double r) 
filledCircle(double x, double y, double r) 
ellipse(double x, double y, double rw, double rh) 
filledEllipse(double x, double y, double rw, double rh) 
sqare(double x, double y, double r) 
filledSquare(double x, double y, double r) 
rectangle(double x, double y, double rw, double rh) 
filledRectangle(double x, double y, double rw, double rh) 
polygon(double[] x, double[] y) 

filledPolygon(double[] x, double[] y) 


标准 绘图 库 中 还 包含 一 些 方法 来 改变 画布 的 大 小 和 比例 、 直 线 的 颜色 和 宽度 、 文 本 字体 、 绘 图 
时 间 (用 于 动画 ) 等 。 可 以 使 用 在 StdDraw 中 预定 义 的 BLACK、BLUE、CYAN、DARK_GRAY、GRAY 、 
GREEN、LIGHT_GRAY、MAGENTA 、ORANGE 、PINK 、RED 、BOOK_RED 、WHITE 和 YELLOW 等 颜色 常数 
作为 setPenColor() 方法 的 参数 (可 以 用 StdDraw.RED 这 样 的 方式 调用 它们 ) 。 而 布 窗口 的 菜单 
还 包含 一 个 选项 用 于 将 图 像 保存 为 适 于 在 网 上 传播 的 文件 格式 。 表 1.1.19 总 结 了 StdDraw 中 静态 控 


制 方法 的 API。 
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表 1.1.19 标准 绘图 库 的 静态 (控制 ) 方法 的 API 





public class StdDraw 





static void setXscale(double x0, double x1) 将 x 的 范围 设 为 (xo,x) 

static void setYscale(double y0, double y1) 将 的 范围 设 为 0%,y) 

static void setPenRadius(double r) 将 画笔 的 粗细 半径 设 为 + 

static void setPenColor(Color c) 将 画笔 的 颜色 设 为 < 

static void setFont(Font f) 将 文本 字体 设 为 六 

static void setCanvasSize(int w, int h) 将 画布 窗口 的 宽 和 高 分 别 设 为 w 和 户 

static void clear(Color ¢) 清空 画布 并 用 颜色 将 其 填充 

static void show(int dt) 显示 所 有 图 像 并 暂停 四 毫秒 [43] 








在 本 书 中 ,我们 会 在 数据 分 析 和 算法 的 可 视 化 中 使 用 StdDraw。 表 1.1.20 是 一 些 例子 ,我 们 在 
本 书 的 其 他 章节 和 练习 中 还 会 遇 到 更 多 的 例子 。 绘 图 库 也 支持 动画 一 一 当然 ， 这 个 话题 只 能 在 本 书 
的 网 站 上 展开 了 。 4 和 4 














表 1.1.20 StdDraw 绘图 举例 


数 据 绘图 的 实现 《代码 片段 ) 结 果 


int N = 100; 

StdDraw. setXscale(0, N); 
StdDraw. setYscale(0, N*N; 
StdDraw. setPenRadius( .01. 
for (int 1 = 1; 1 <= N; i++) 
{ 








函数 值 
StdDraw.point(i, 1); 
StdDraw.point (1, i*i); 
StdDraw.point(i，i*Math.1og(i)); 





} 

int N = 50; 

double[] a = new double[N]; 

for (int 1 = 0; i < N; i++) 
a[i] = StdRandom.randomO; 

for (int 1 = 0; 1 < N; i++) 

{ 





随机 数组 double x = 1.0wi/Ni 


double y = a[i]/2.0; 

double rw = 0.5/N; 

double rh = a[i]/2.0; 

StdDraw.filledRectangle(x, y, rw, rh); 
} 





int N = 50; 

double[] a = new doublefN]; 

for (int 1 = 0; i <N; i4#) 
a[i] = StdRandom. random(); 

Arrays.sort(a); 

for (int 1 = 0; 1 < N; i++) 





已 排序 的 随 


WR double x = 1.0*i/N; 


double y = a[i]/2.0; 

double rw = 0.5/N; 

double rh = a[i]/2.0; 

StdDraw. filledRectangleCx, y, rw, rh); 
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1.1.10 ”二 分 查找 

我 们 要 学 习 的 第 一 个 Java 程序 的 示例 程序 就 是 著名 、 高 效 并 且 应 用 广泛 的 二 分 查找 算法 ， 如 下 
所 示 。 这 个 例子 将 会 展示 本 书 中 学 习 新 算法 的 基本 方法 。 和 我 们 将 要 学 习 的 所 有 程序 一 样 ， 它 既是 
算法 的 准确 定义 ， 又 是 算法 的 一 个 完整 的 Java 实现 ， 而 且 你 还 能 够 从 本 书 的 网 站 上 下 载 它 。 


二 分 查找 


import java.util.Arrays; 
public class BinarySearch 





public static int rank(int key, int[] a) 
{ // 数组 必须 是 有 序 的 
int lo = 0; 
int hi = a.length - 1; 
while (lo <= hi) 
{ // 被 查找 的 刍 要 么 不 存在 ， 要么 必然 存在 于 a[10..hi] 之 中 
int mid = lo + (hi - 10) / 2; 
if (key < amid]) hi = mid - 1; 
else if (key > amid]) lo = mid + 1; 
else return mid; 
} 
return -1; 


public static void main(String[] args) 


int[] whitelist = In.readInts(args[0]); 
Arrays. sort(whitelist); 
while (!StdIn.isEmpty()) 
{ // 读 取 键 值 ， 如 果 不 存 在 于 自 名 单 中 则 将 其 打印 
int key = StdIn.readInt(); 
if (rank(key, whitelist) < 0) 
StdOut.printin(key); 
} 


} 
} 


这 用 程序 捷 受 一 个 白 名 单 文件 一 到 下 % java BinarySearch tinyW.txt < tinyT.txt 
作为 参数 ， 并 会 过 江 扩 标准 输入 中 的 所 有 存在 。 为 : : 
于 白 名 单 中 的 条 目 ， 仅 将 不 在 白 名 单 上 的 整数 中 
打印 到 标准 输出 中 。 它 在 rankO 静态 方法 中 央 。 二 
现 了 二 分 查找 算法 并 高 效 地 完成 了 这 个 任务 。 
关于 二 分 在 找 算法 的 完整 讨论 ， 包 括 它 的 正确 人 性、 性 能 分 析 及 其 应 用 ， 请 见 3.1 节 。 





1.1.10.1 二 分 查找 

我 们 会 在 3.2 节 中 详细 学 习 二 分 查找 算法 ， 但 此 处 先 简单 地 描述 一 下 。 算 法 是 由 静态 方法 
rank() 实现 的 ， 它 接受 一 个 整数 键 和 一 个 已 经 有 序 的 int 数组 作为 参数 。 如 果 该 键 存在 于 数组 中 
则 返回 它 的 索引 ， 否 则 返回 -1。 算 法 使 用 两 个 变量 1o 和 hi， 并 保证 如 果 键 在 数组 中 则 它 一 定 在 
a[1o..hi] 中 ， 然 后 方法 进入 一 个 循环 ， 不 断 将 数组 的 中 间 键 (索引 为 mid ) 和 被 查找 的 键 比较 。 
如 果 被 查找 的 键 等 于 a[mid] ， 返 回 mid;， 否则 算法 就 将 查找 范围 缩小 一半 ， 如 果 被 查找 的 键 小 于 
a[mid] 就 继续 在 左 半边 查找 ， 如 果 被 查找 的 键 大 于 a[mid] 就 继续 在 右 半边 查找 。 算法 找到 被 查找 
的 键 或 是 查找 范围 为 空 时 该 过 程 结束 。 二 分 查找 之 所 以 快 是 因为 它 只 需 检查 很 少 几 个 条 目 (相对 于 
数组 的 大 小 ) 就 能 够 找到 目标 元 素 ( 或 者 确认 目标 元 素 不 存在 ) 。 在 有 序数 组 中 进行 二 分 查找 的 示 
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例如 图 1.1.7 所 示 。 
1.1.10.2 开发 用 例 

对 于 每 个 算法 的 实现 ， 我 们 都 会 开发 一 个 用 例 mainQ 函数 ， 并 在 书 中 或 是 本 书 的 网 站 上 提供 一 
个 示例 输入 文件 来 帮助 读者 学 习 该 算法 并 检测 它 的 性 能 。 在 这 个 例子 中 ， 这 个 用 例会 从 命令 行 指定 的 
文件 中 读 取 多 个 整数 ， 并 会 打印 出 标准 输入 中 所 有 不 存在 于 该 文件 中 的 整数 。 我 们 使 用 了 图 1.1.8 所 
示 的 几 个 较 小 的 测试 文件 来 展示 它 的 行为 ， 这 些 文件 也 是 图 1.1.7 中 的 跟踪 和 例子 的 基础 。 我 们 会 使 
用 较 大 的 测试 文件 来 模拟 真实 应 用 并 测试 算法 的 性 能 (请 见 1.1.103 节 ) 。 





对 23 的 命中 查找 
时 mid 时 
10 11 12 16 18 23 29 33 48 54 57 68 77 84 98 
1o mid hi 
10 11 12 16 18 23 29 tinyw.txt tinyT.txt 
1o midhi 84 23 
二 电 夫 48 50 
18 23 29 68 x 
0 
对 50 的 未 命中 查找 3 Eh 
1o mid hi 
' hn 98 23 
12 98 存在 于 
10 11 12 16 18 23 29 33 48 54 57 68 77 84 98 在 
3 3 于 tt 
57 10 
48 54 57 68 77 84 98 
To midhi pe 48 
1 + 33 77) 
48 54 57 天 入 
To midhi 人 4 
Ep 1 98 
8 29 77 
hi 10 和 
yy? 68 
> i 4 
图 1.1.8 为 BinarySearch 的 测试 用 例 后 
图 1.1.7 有 序数 组 中 的 二 分 查找 准备 的 小 型 测试 文件 47 











1.1.10.3 和 白 名 单 过 滤 

如 果 可 能 ， 我 们 的 测试 用 例 都 会 通过 模拟 实际 情况 来 展示 当前 算法 的 必要 性 。 这 里 该 过 程 被 称 
为 白 名 单 过 滤 。 具 体 来 说 ， 可 以 想象 一 家 信用 卡 公司 ， 它 需要 检查 客户 的 交易 账号 是 否 有 效 。 为 此 ， 
它 需 要 : 

口 将 客户 的 账号 保存 在 一 个 文件 中 ,我们 称 它 为 白 名 单 ; 

口 从 标准 输入 中 得 到 每 笔 交易 的 账号 ; 

口 使 用 这 个 测试 用 例 在 标准 输出 中 打印 所 有 与 任何 客户 无 关 的 账号 ,公司 很 可 能 拒绝 此 类 交易 。 

在 一 家 有 上 百 万 客户 的 大 公司 中 ,需要 处 理 数 百 万 甚至 更 多 的 交易 都 是 很 正常 的 。 为 了 模拟 这 
种 情况 ,我 们 在 本 书 的 网 站 上 提供 了 文件 largeW.txt ( 100 万 个 整数 ) 和 largeT.txt ( 1000 万 个 整数 ) 
其 基本 情况 如 图 1.1.9 所 示 。 
1.1.10.4 性 能 

一 个 程序 只 是 可 用 往往 是 不 够 的 。 例 如 ， 以 下 rankQ 的 实现 也 可 以 很 简单 ， 它 会 检查 数组 的 
每 个 元 素 ， 甚 至 都 不 需要 数组 是 有 序 的 : 


30 本 第 1 章 基 础 





8 
49 











public static int rank(Cint key, int[] a) 


for (int i = 0; i < a.length; i++) 
if (a[i] == key) return ii 
return -1; 

1 

有 了 这 个 简单 易 懂 的 解决 方案 ， 我们 为 什 
么 还 需要 归并 排序 和 二 分 查找 呢 ? 你 在 完成 练 
习 1.1.38 时 会 看 到 ， 计 算 机 用 rank () 方法 的 
暴力 实现 处 理 大 量 输入 ( 比如 含有 100 万 个 条 
目的 白 名 单 和 1000 万 条 交易 ) 非常 慢 。 没 有 
如 二 分 查找 或 者 归并 排序 这 样 的 高 效 算法 ， 解 
决 大 规模 的 白 名 单 问题 是 不 可 能 的 。 良 好 的 性 
能 常常 是 极为 重要 的 ， 因 此 我 们 会 在 1.4 节 中 
为 性 能 研究 做 一 些 铺垫 ， 并 会 分 析 我 们 学 习 的 
所 有 算法 的 性 能 特点 (包括 2.2 节 的 归并 排序 
和 3.1 节 中 的 二 分 查找 ) 。 

目前 ， 我 们 在 这 里 粗略 地 勾勒 出 我 们 的 
编程 模型 的 目标 是 ， 确 保 你 能 够 在 计算 机 上 运 
行 类 似 于 BinarySearch 的 代码 ， 使 用 它 处 理 我 
们 的 测试 数据 并 为 适应 各 种 情况 修改 它 ( 比如 
本 节 练 习 中 所 描述 的 一 些 情况 ) 以 完全 理解 它 
的 可 应 用 性 。 我 们 的 编程 模型 就 是 设计 用 来 
简化 这 些 活动 的 ， 这 对 各 种 算法 的 学 习 至 关 
重要 。 


1.1.11 展望 


TargeW.txt largeT.txt 
489910 944443 
18940 293674 
774392 572153 
490636 600579 
125544 499569, 
407391 984875， 
115771 763178 
992663 295754 
923282 44696 
176914 207807 
217904 138910 
571222 903531 
519039 140925 
395667 699418 不 存在 于 
,人 ee TargeW. txt 
199694 
774549 
100 万 个 int 值 。 635871 
161828 
805380 
1000 万 个 int 值 


% java BinarySearch largeW.txt < largeT.txt 
499569 
984875 
295754 
207807 
140925 
161828 


3 675 966 个 int 值 


图 1.1.9 为 BinarySearch 测试 用 例 准备 的 大 型 文件 


在 本 节 中 ， 我 们 描述 了 一 个 精巧 而 完整 的 编程 模型 ， 数 十 年 来 它 一 直 在 〈 并 且 现在 仍 在 ) 为 广 
大 程序 员 服务 。 但 现代 编程 技术 已 经 更 进一步 。 前 进 的 这 一 步 被 称 为 数据 抽象 ， 有 时 也 被 称 为 面向 
对 象 编程 ， 它 是 我 们 下 一 节 的 主题 。 简 单 地 说 ， 数 据 抽象 的 主要 思想 是 鼓励 程序 定义 自己 的 数据 类 
型 (一 系列 值 和 对 这 些 值 的 操作 ) ， 而 不 仅仅 是 那些 操作 预定 义 的 数据 类 型 的 静态 方法 。 

面向 对 象 编程 在 最 近 几 十 年 得 到 了 广泛 的 应 用 ， 数 据 抽象 已 经 成 为 现代 程序 开发 的 核心 。 我 们 


在 本 书 中 “拥抱 ”数据 抽象 的 原因 主要 有 三 。 


口 它 允 许 我 们 通过 模块 化 编程 复 用 代码 。 例 如 ， 第 2 章 中 的 排序 算法 和 第 3 章 中 的 二 分 查找 以 
及 其 他 算法 ， 都 允许 调用 者 用 同一 段 代 码 处 理 任意 类 型 的 数据 (而 不 仅 限于 整数 ) ， 包 括 调 


用 者 自 定义 的 数据 类 型 。 


口 它 使 我 们 可 以 轻易 构造 多 种 所 谓 的 链 式 数据 结构 ， 它 们 比 数组 更 灵活 ， 在 许多 情况 下 都 是 高 


效 算法 的 基础 。 


口 借助 它 我 们 可 以 准确 地 定义 所 面 对 的 算法 问题 。 比 如 1.5 节 中 的 union-find 算法 、2.4 节 中 的 
优先 队列 算法 和 第 3 章 中 的 符号 表 算法 ， 它 们 解决 问题 的 方式 都 是 定义 数据 结构 并 高 效 地 实 
现 它们 的 一 组 操作 。 这 些 问题 都 能 够 用 数据 抽象 很 好 地 解决 。 
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尽管 如 此 ， 但 我 们 的 重点 仍然 是 对 算法 的 研究 。 在 了 解 了 这 些 知识 以 后 ， 我 们 将 学 习 面向 对 象 








编程 中 和 我 们 的 使 命 相关 的 另 一 个 重要 特性 。 50 








图 答 颖 


问 什么 是 Java 的 字 节 码 ? 

答 它 是 程序 的 一 种 低级 表示 ， 可 以 运行 于 Java 的 虚拟 机 。 将 程序 抽象 为 字 节 码 可 以 保证 Java 程序 员 的 
代码 能 够 运行 在 各 种 设备 之 上 。 

问 Java 允许 整 型 溢出 并 返回 错误 值 的 做 法 是 错误 的 。 难 道 Java 不 应 该 自动 检查 溢出 吗 ? 

答 ”这 个 问题 在 程序 员 中 一 直 是 有 争议 的 。 简 单 的 回答 是 它们 之 所 以 被 称 为 原始 数据 类 型 就 是 因为 缺乏 
此 类 检查 。 避 免 此 类 问题 并 不 需要 很 高 深 的 知识 。 我 们 会 使 用 int 类 型 表示 较 小 的 数 (小 于 10 个 十 
进 制 位 ) 而 使 用 1ong 表示 10 亿 以 上 的 数 。 

间 Math.abs(-2147483648) 的 返回 值 是 什么 ? 

答 -2147483648。 这 个 奇怪 的 结果 ( 但 的 确 是 真 的 ) 就 是 整数 溢出 的 典型 例子 。 

问 ”如 何 才能 将 一 个 double 变量 初始 化 为 无 穷 大 ? 

答 ”可 以 使 用 Java 的 内 置 常数 : Double.POSITIVE_INFINITY 和 Double.NEGATIVE_INFINITY。 

问 ”能够 将 double 类 型 的 值 和 int 类 型 的 值 相互 比较 吗 ? 

答 ”不 通过 类 型 转换 是 不 行 的 ， 但 请 记 住 Java 一 般 会 自动 进行 所 需 的 类 型 转换 。 例 如 ， 如 果 x 的 类 型 是 
int 且 值 为 3, 那 么 表达 式 (x<3.1) 的 值 为 true 一 一 Java 会 在 比较 前 将 x 转换 为 double 类 型 ( 因为 3.1 
是 一 个 double 类 型 的 字面 量 ) 。 

问 ”如 果 使 用 一 个 变量 前 没有 将 它 初始 化 ， 会 发 生 什么 ? 

答 ”如果 代码 中 存在 任何 可 能 导致 使 用 未 经 初始 化 的 变量 的 执行 路 径 ，Java 都 会 抛 出 一 个 编译 异常 。 

问 Java 表达 式 1/0 和 1.0/0.0 的 值 是 什么 ? 

答 ”第 一 个 表达 式 会 产生 一 个 运行 时 除 零 异常 ( 它 会 终止 程序 ， 因 为 这 个 值 是 未 定义 的 ) ; 第 二 个 表达 
式 的 值 是 Infinity ( 无 穷 大 ) 。 51 

间 能 够 使 用 < 和 > 比较 String 变量 吗 ? 

答 不 行 , 只 有 原始 数据 类 型 定义 了 这 些 运算 符 。 请 见 1.1.2.3 节 。 

问 ”负数 的 除法 和 余数 的 结果 是 什么 ? 

答 ”表达 式 a/b 的 商会 向 0 取 整 ， a % b 的 余数 的 定义 是 (a/b)*b + a % b 恒 等 于 a。 例如 -14/3 和 
14/-3 的 商都 是 -4, 但 -14 % 3 是 -2, 而 14 % -3 是 2。 

问 为 什么 使 用 (a && b) 而 非 (a & b)? 

答 运算 符 &、| 和 人 ^ 分 别 表示 整数 的 位 逻辑 操作 与 、 或 和 并 或 。 因 此，1016 的 值 为 14，10A6 的 值 为 
12。 在 本 书 中 我 们 很 少 ( 偶尔 ) 会 用 到 这 些 运算 符 。&& 和 | | 运算 符 仅 在 独立 的 布尔 表达 式 中 有 效 ， 
原因 是 短路 求 值 法 则 : 表达 式 从 左 向 右 求 值 ， 一 旦 整个 表达 式 的 值 已 知 则 停止 求 值 。 

问 性 套 if 语句 中 的 二 义 性 有 问题 吗 ? 

答 是 的 。 在 Java 中 ， 以 下 语句 : 














if <exprl> if <expr2> <stmntA> else <stmntB> 
等 价 于 : 


if <exprl> { if <expr2> <stmntA> else <stmntB> } 
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即使 你 想 表达 的 是 : 

if <exprl> { if <expr2> <stmntA> } else <stmntB> 

避免 这 种 “无 主 的 ”else 陷阱 的 最 好 办 法 是 显 式 地 写 明 所 有 大 括号 。 

一 个 for 循环 和 它 的 while 形式 有 什么 区 别 ? 

for 循环 头 部 的 代码 和 for 循环 的 主体 代码 在 同一 个 代码 段 之 中 。 在 一 个 典型 的 for 循环 中 ， 递 
增 变量 一 般 在 循环 结束 之 后 都 是 不 可 用 的 ; 但 在 和 它 等 价 的 while 循环 中 ， 递 增 变量 在 循环 结束 
之 后 仍然 是 可 用 的 。 这 个 区 别 常常 是 使 用 while 而 非 for 循环 的 主要 原因 。 

有 些 Java 程序 员 用 int a[] 而 不 是 int[] a 来 声明 一 个 数组 。 这 两 者 有 什么 不 同 ? 

在 Java 中 ,两 者 等 价 且 都 是 合法 的 。 前 一 种 是 C 语言 中 数组 的 声明 方式 。 后 者 是 Java 提倡 的 方式 ， 
因为 变量 的 类 型 int[] 能 更 清楚 地 说 明 这 是 一 个 整 型 的 数组 。 

为 什么 数组 的 起 始 索引 是 0 而 不 是 1? 

这 个 习惯 来 源 于 机 器 语言 ， 那 时 要 计算 一 个 数组 元 素 的 地 址 需要 将 数组 的 起 始 地 址 加 上 该 元 素 的 索 
引 。 将 起 始 索 引 设 为 1 要么 会 浪费 数组 的 第 一 个 元 素 的 空间 , 要 么 会 花费 额外 的 时 间 来 将 索引 减 1。 
如 果 a[] 是 一 个 数组 ， 为 什么 Stdout.println(a) 打印 出 的 是 一 个 十 六 进 制 的 整数 ， 比 如 @ 
f62373， 而 不 是 数组 中 的 元 素 呢 ? 

间 得 好 。 该 方法 打印 出 的 是 这 个 数组 的 地 址 ， 不 幸 的 是 你 一 般 都 不 需要 它 。 

我 们 为 什么 不 使 用 标准 的 Java 库 来 处 理 输入 和 图 形 ? 

我 们 的 确 用 到 了 它们 ， 但 我 们 希望 使 用 更 简单 的 抽象 模型 。StdIn 和 StdDraw 背后 的 Java 标准 库 是 
为 实际 生产 设计 的 ， 这 些 库 和 它们 的 API 都 有 些 笨重 。 要 想 知道 它们 真正 的 模样 ， 请 查看 StdInjava 
和 StdDrawjava 的 代码 。 

我 的 程序 能 够 重新 读 取 标准 输入 中 的 值 吗 ? 

不 行 ， 你 只 有 一 次 机 会 ， 就 好 像 你 不 能 撤销 print1n() 的 结果 一 样 。 

如 果 我 的 程序 在 标准 输入 为 空 之 后 仍然 尝试 读 取 ， 会 发 生 什 么 ? 

会 得 到 一 个 错误 。StdIn.isEmpty() 能 够 帮助 你 检查 是 否 还 有 可 用 的 输入 以 避免 这 种 错误 。 

这 条 出 错 信息 是 什么 意思 ? 

Exception in thread "main”java.1ang.NoC1assDefFoundError: StdIn 

你 可 能 忘记 把 StdiIn.java 文件 放 到 工作 目录 中 去 了 。 

在 Java 中 ， 一 个 静态 方法 能 够 将 另 一 个 静态 方法 作为 参数 吗 ? 

不 行 ， 但 问 得 好 ， 因 为 有 很 多 语言 都 能 够 这 么 做 。 


图 练习 


1.1.1 给 出 以 下 表达 式 的 值 : 


a(l(o0+15)/2 
b.2.0e-6 * 100000000.1 
ctrue && false || true && true 


1.1.2 给 出 以 下 表达 式 的 类 型 和 值 : 


a (1 + 2.236)/2 
b.1+2+3+4.0 


1.1.5 


1.1.6 


1.1.7 


1.1.9 


1.1 基础 编程 模型 二 33 


c4.1 >= 4 
放生 流 全- 各 
编写 一 个 程序 ， 从 命令 行 得 到 三 个 整数 参数 。 如 果 它 们 都 相等 则 打印 equa1， 否 则 打印 not 
equal。 
下 列 语 句 各 有 什么 问题 ( 如 果 有 的 话 ) ? 
aif (Ga> b then c = 0; 
bifa>b{c=0;} 
cif (a>b)c=0; 
dif (a>b)c=0elseb=0; 
编写 一 段 程序 ， 如 果 double 类 型 的 变量 x 和 y 都 严格 位 于 0 和 1 之 间 则 打印 true， 否 则 打印 
false。 
下 面 这 段 程序 会 打印 出 什么 ? 
int f= 0; 
int g= 1; 
for (int 1 = 0; 1 <= 15; i++) 
{ 
StdOut.print1n(f); 
f=f+g; 
g=-f-g; 54 














} 
分 别 给 出 以 下 代码 段 打印 出 的 值 : 
a.double t = 9.0; 
while (Math.abs(t - 9.0/t) > .001) 
t= (9.0/t + t) / 2.0; 
StdOut .printf("%.5f\n", t); 
b.int sum = 0; 
for (int i = < 1000; i++) 
for (int j = 0; j < i; j++) 
SUMm++; 
StdOut .println(sum); 








c.int sum = 0; 
for (int 1 = 1; i < 1000; i *- 2) 
for (Cint j = 0; j < 1000; j++) 
SUm++; 
Stdout.println(Csum) ; 
下 列 语句 会 打印 出 什么 结果 ? 给 出 解释 。 
a. System.out.println('b'); 
b. System.out.println("b' + 'c'); 
ec. System.out.println((char) ("a’ + 4)); 
编写 一 段 代码 ， 将 一 个 正 整数 N 用 二 进 制 表示 并 转换 为 一 个 String 类 型 的 值 s。 
解答 : Java 有 一 个 内 置 方 法 Integer.toBinaryString(N) 专门 完成 这 个 任务 ， 但 该 题 的 目的 就 
是 给 出 这 个 方法 的 其 他 实现 方法 。 下 面 就 是 一 个 特别 简洁 的 答案 : 
String s 


for (int n=N;n>0;n/=2) 55 
s=(n%2)+s; 
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1.1.10 


1.1.11 


1.1.12 


1.1.13 
1.1.14 
1.1.15 


1.1.48 


1.1.17 


1.1.18 


1.1.19 


下 面 这 段 代码 有 什么 问题 ? 
int[] a; 
for (Cint i = 0; i < 10; i++) 
ali] = 1 * i; 
解答 : 它 没有 用 new 为 a[] 分 配 内 存 。 这 段 代码 会 产生 一 个 variable a might not have 
been initialized 的 编译 错误 。 
编写 一 段 代码 ， 打 印 出 一 个 二 维 布尔 数组 的 内 容 。 其 中 ,使 用 * 表示 真 ， 空 格 表示 假 。 打 印 出 
行 号 和 列 号 。 
以 下 代码 段 会 打印 出 什么 结果 ? 
int[] a = new int[10]; 
for (int i = 0; i < 10; i++) 
ar = 9 - i; 
for (int i = 0; 1 < 10; i++) 
a[i] = a[a[i]]; 
for (int i = 0; i < 10; i++) 
System.out.print1n(i); 


编写 一 段 代码 ， 打 印 出 一 个 M 行 N 列 的 二 维 数组 的 转 置 ( 交换 行 和 列 ) 。 

编写 一 个 静态 方法 190 , 接受 一 个 整 型 参数 N, 返回 不 大 于 log;N 的 最 大 整数 。 不 要 使 用 Math 库 。 
编写 一 个 静态 方法 histogram() ， 接 受 一 个 整 型 数组 a[] 和 一 个 整数 M 为 参数 并 返回 一 个 大 小 
为 M 的 数组 ,其 中 第 i 个 元 素 的 值 为 整数 i 在 参数 数组 中 出 现 的 次 数 ,如 果 a[] 中 的 值 均 在 0 到 M-1 
之 间 ， 返 回 数组 中 所 有 元 素 之 和 应 该 和 a.1ength 相等 。 

给 出 exR1(6) 的 返回 值 : 

public static String exRlCint n) 





if Cn <= 0) return ""; 
return exR1(n-3) + n + exR1(n-2) + ni 


找 出 以 下 递归 函数 的 问题 : 


public static String exR2(int n) 


{ 
String s = exR2(n-3) + mn + exR2(n-2) + ni 
if (n <= 0) return ""; 
return s; 

} 


答 : 这 段 代码 中 的 基础 情况 永远 不 会 被 访问 。 调 用 exR2(3) 会 产生 调用 exR2(0) 、exR2(-3) 和 
exR2(-6) ， 循 环 往复 直到 发 生 StackOverflowError。 
请 看 以 下 递归 函数 : 
public static int mystery(int a, int b) 
{ 
if (b == 0) return 0; 
if (b % 2 == 0) return mystery(a+a, b/2); 
return mystery(ata, b/2) + ai 


mystery(2，25) 和 mystery(3，11) 的 返回 值 是 多 少 ? 给 定 正 整数 a 和 b，mystery(a,b) 
计算 的 结果 是 什么 ? 将 代码 中 的 + 替换 为 * 并 将 return 0 改 为 return 1， 然 后 回答 相同 
的 问题 。 

在 计算 机 上 运行 以 下 程序 : 
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public class Fibonacci 
基 
public static long FCint N) 
{ 
if CN == 0) return 0; 
if CN == 1) return 1; 
return F(N-1) + F(N-2); 
时 
public static void main(String[] args) 
{ 
for (int N= 0; N < 100; N++) 
StdOut.printIn(N + " ”+ FCN)); 
二 
} 57 


计算 机 用 这 段 程序 在 一 个 小 时 之 内 能 够 得 到 FCN) 结果 的 最 大 N 值 是 多 少 ? 开发 FCN) 的 一 
个 更 好 的 实现 ， 用 数组 保存 已 经 计算 过 的 值 。 

1.1.20 编写 一 个 递归 的 静态 方法 计算 1nCN!) 的 值 。 

1.1.21 编写 一 段 程序 ， 从 标准 输入 按 行 读 取 数据 ， 其 中 每 行 都 包含 一 个 名 字 和 两 个 整数 。 然 后 用 
printfQ 打印 一 张 表格 ， 每 行 的 若干 列 数据 包括 名 字 、 两 个 整数 和 第 一 个 整数 除 以 第 二 个 整数 
的 结果 ， 精 确 到 小 数 点 后 三 位 。 可 以 用 这 种 程序 将 棒球 球 手 的 击 球 命中 率 或 者 学 生 的 考试 分 数 
制 成 表格 。 

1.1.22 使 用 1.1.6.4 节 中 的 rank() 递归 方法 重新 实现 BinarySearch 并 跟踪 该 方法 的 调用 。 每 当 该 方法 
被 调用 时 ， 打 印 出 它 的 参数 1o 和 hi 并 按照 递归 的 深度 缩 进 。 提 示 : 为 递归 方法 添加 一 个 参数 
来 保存 递归 的 深度 。 

1.1.23 为 BinarySearch 的 测试 用 例 添加 一 个 参数 : + 打印 出 标准 输入 中 不 在 白 名单 上 的 值 ; -， 则 打 
印 出 标准 输入 中 在 白 名单 上 的 值 。 

1.1.24 给 出 使 用 欧 几 里 德 算法 计算 105 和 24 的 最 大 公约 数 的 过 程 中 得 到 的 一 系列 p 和 9 的 值 。 扩 展 该 
算法 中 的 代码 得 到 一 个 程序 Euclid， 从 命令 行 接受 两 个 参数 ， 计 算 它们 的 最 大 公约 数 并 打印 出 每 
次 调用 递归 方法 时 的 两 个 参数 。 使 用 你 的 程序 计算 1 111 111 和 1 234 567 的 最 大 公约 数 。 

1.1.25 “使 用 数学 归纳 法 证 明 欧 几 里 德 算法 能 够 计算 任意 一 对 非 负 整 数 p 和 9 的 最 大 公约 数 。 58 





























图 提高 三 


1.1.26 将 三 个 数字 排序 。 假 设 a、b、c 和 都 是 同一 种 原始 数字 类 型 的 变量 。 证 明 以 下 代码 能 够 将 a、 
b、c 按照 升序 排列 
if (a>b){t=a;a=b 
if (a>) {t=aa= 
if (b>O{ft=b;b= 


1.1.27 二 项 分 布 。 估 计 用 以 下 代码 计算 binomial1(100，50) 将 会 产生 的 递归 调用 次 数 : 
public static double binomial(int N, int k，double p) 
{ 





if (N == 0 && k == 0) return 1.0; and if (N < 0 || k < 0) return 0.0; 
return (1.0 - p)*binomial(N-1, k, p) + p*binomial(N-1, k-1); 
} 


将 已 经 计算 过 的 值 保存 在 数组 中 并 给 出 一 个 更 好 的 实现 。 
1.1.28 删除 重复 元 素 。 修 改 BinarySearch 类 中 的 测试 用 例 来 删 去 排序 之 后 白 名单 中 的 所 有 重复 元 素 。 
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1.1.29 


1.1.30 


























等 值 键 , 为 BinarySearch 类 添加 一 个 静态 方法 rank(), 它 接受 一 个 键 和 一 个 整 型 有 序数 组 ( 可 
能 存在 重复 键 ) 作为 参数 并 返回 数组 中 小 于 该 键 的 元 素数 量 ， 以 及 一 个 类 似 的 方法 count() 来 
返回 数组 中 等 于 该 键 的 元 素 的 数量 。 注 意 : 如 果 i 和 j 分 别 是 rank(key,a) 和 count(key,a) 
的 返回 值 ， 那 么 a[i. .i+j-1] 就 是 数组 中 所 有 和 key 相等 的 元 素 。 

数组 练习 。 编 写 一 段 程序 ,创建 一 个 Nx NN 的 布尔 数组 a[] [] 。 其 中 当 i 和 j 互 质 时 (没有 相同 
因子 ) ，a[i] [j] 为 true， 否 则 为 false 





1.1.31 随机 连接 。 编 写 一 段 程序 ， 从 命令 行 接受 一 个 整数 N 和 double 值 p (0 到 1 之 间 ) 作为 参数 ， 
59 在 一 个 圆 上 画 出 大 小 为 0.05 且 间 距 相等 的 N 个 点 ,然后 将 每 对 点 按照 概率 p 用 灰 线 连接 。 
1.1.32 直方 图 。 假 设 标准 输入 流 中 含有 一 系列 double 值 。 编 写 一 段 程序 ， 从 命令 行 接受 一 个 整数 N 和 
两 个 double 值 1 和 六 将 (1, 门 分 为 段 并 使 用 StdDraw 画 出 输入 流 中 的 值 落 入 每 段 的 数量 的 
直方 图 。 
1.1.33 ”给 阵 库 。 编 写 一 个 Matrix 库 并 实现 以 下 API: 
public class Matrix 
static double dot(double[] x, double[] y) 向 量 点 乘 
static double[][] mult(double[][] a, double[][] b) 矩阵 和 和 矩阵 之 积 
static double[][] transpose(double[][] a) 转 置 矩阵 
static double[] mult(double[][] a, double[] x) 矩阵 和 向 量 之 积 
static double[] mult(double[] y, double[][] a) 向 量 和 和 矩阵 之 积 
编写 一 个 测试 用 例 ， 从 标准 输入 读 取 和 矩阵 并 测试 所 有 方法 。 
1.1.34 过 滤 。 以 下 哪些 任务 需要 ( 在 数组 中 ， 比 如 ) 保存 标准 输入 中 的 所 有 值 ? 哪些 可 以 被 实现 为 一 
个 过 滤器 且 仅 使 用 固定 数量 的 变量 和 固定 大 小 的 数组 ( 和 N 无 关 ) ? 在 每 个 问题 中 ， 输 入 都 来 
自 于 标准 输入 且 含有 N 个 0 到 ! 的 实数 。 
口 打印 出 最 大 和 最 小 的 数 
口 打印 出 所 有 数 的 中 位 数 
口 打印 出 第 k 小 的 数 ,小 于 100 
口 打印 出 所 有 数 的 平方 和 
口 打印 出 个 数 的 平均 值 
口 打印 出 大 于 平均 值 的 数 的 百分比 
口 将 NN 个 数 按照 升序 打印 
60 口 将 NN 个 数 按照 随机 顺序 打印 
图 实验 十 


1.1.35 


模拟 掷 朋 子 。 以 下 代码 能 够 计算 每 种 两 个 骨 子 之 和 的 准确 概率 分 布 : 
int SIDES 








new double[2*SIDES+1]; 

i <= SIDES; i++) 

for (int j = 1; j <= SIDES; j++) 
dist[i+j] += 1.0; 


for (Cint k = 2; k <= 2*SIDES; k++) 
dist[k] /= 36.0; 
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dist[i] 的 值 就 是 两 个 盘子 之 和 为 i 的 概率 。 用 实验 模拟 次 毛 散 子 ， 并 在 计算 两 个 1 到 
6 之 间 的 随机 整数 之 和 时 记录 每 个 值 的 出 现 频率 以 验证 它们 的 概率 。N 要 多 大 才能 够 保证 你 
的 经 验 数据 和 准确 数据 的 吻合 程度 达到 小 数 点 后 三 位 ? 

1.1.36 乱 序 检查 。 通 过 实验 检查 表 1.1.10 中 的 乱 序 代码 是 否 能 够 产生 预期 的 效果 。 编 写 一 个 程序 
ShufheTest， 接 受命 令 行 参数 M 和 N， 将 大 小 为 M 的 数组 打 乱 N 次 且 在 每 次 打 乱 之 前 都 将 数组 
重新 初始 化 为 ari = i。 打 印 一 个 Mx M 的 表格 ,对 于 所 有 的 列 j， 行 i 表示 的 是 i 在 打 乱 后 
落 到 j 的 位 置 的 次 数 。 数 组 中 的 所 有 元 素 的 值 都 应 该 接近 于 N/M。 

1.1.37 ”楼 粒 的 打 乱 。 假 设 在 我 们 的 乱 序 代码 中 你 选择 的 是 一 个 0 到 N-1 而 非 1 到 N-1 之 间 的 随机 整数 。 

证 明 得 到 的 结果 并 非 均匀 地 分 布 在 N! 种 可 能 性 之 间 。 用 上 一 题 中 的 测试 检验 这 个 版 本 。 

1.1.38 二 分 查找 与 暴力 查找 。 根 据 1.1.10.4 节 给 出 的 暴力 查找 法 编写 一 个 程序 BruteForceSearch， 在 你 
的 计算 机 上 比较 它 和 BinarySearch 处 理 largeW.txt 和 largeT.txt 所 需 的 时 间 。 61 

1.1.39 随机 匹配 。 编 写 一 个 使 用 BinarySearch 的 程序 ， 它 从 命令 行 接受 一 个 整 型 参数 T， 并 会 分 别针 
对 NM-10、10*、10 和 10 将 以 下 实验 运行 了 遍 : 生成 两 个 大 小 为 NN 的 随机 6 位 正 整数 数组 并 找 
出 同时 存在 于 两 个 数组 中 的 整数 的 数量 。 打 印 一 个 表格 ， 对 于 每 个 NW， 给 出 了 次 实验 中 该 数量 
的 平均 值 。 62 
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1.2 数据 抽象 


数据 类 型 指 的 是 一 组 值 和 一 组 对 这 些 值 的 操作 的 集合 。 目 前 ， 我 们 已 经 详细 讨论 过 Java 的 原始 
数据 类 型 : 例如 ,原始 数据 类 型 int 的 取 值 范围 是 -2” 到 2”-1 之 间 的 整数 , int 的 操作 包括 +、*、- 、 
/、%、< 和 >。 原 则 上 所 有 程序 都 只 需要 使 用 原始 数据 类 型 即 可 ， 但 在 更 高 层次 的 抽象 上 编写 程序 
会 更 加 方便 。 在 本 节 中 ， 我们 将 重点 学 习 定义 和 使 用 数据 类 型 ， 这 个 过 程 也 被 称 为 数据 抽象 ( 它 是 
对 1.1 节 所 述 的 函数 抽象 风格 的 补充 ) 。 

Java 编程 的 基础 主要 是 使 用 class 关键 字 构造 被 称 为 引用 类 型 的 数据 类 型 。 这 种 编程 风格 也 称 
为 面向 对 象 编程 ， 因 为 它 的 核心 概念 是 对 象 ， 即 保存 了 某 个 数据 类 型 的 值 的 实体 。 如 果 只 有 Java 的 
原始 数据 类 型 ， 我 们 的 程序 会 在 很 大 程度 上 被 限制 在 算术 计算 上 , 但 有 了 引用 类 型 ， 我 们 就 能 编写 
操作 字符 串 、 图 像 、 声 音 以 及 Java 的 标准 库 中 或 者 本 书 的 网 站 上 的 数 百 种 抽象 类 型 的 程序 。 比 各 种 
库 中 预定 义 的 数据 类 型 更 重要 的 是 Java 编程 中 的 数据 类 型 的 种 类 是 无 限 的 ， 因 为 你 能 够 定义 自己 的 
数据 类 型 来 抽象 任意 对 象 。 

抽象 数据 类 型 (ADT ) 是 一 种 能 够 对 使 用 者 隐藏 数据 表示 的 数据 类 型 。 用 Java 类 来 实现 抽象 
数据 类 型 和 用 一 组 静态 方法 实现 一 个 函数 库 并 没有 什么 不 同 。 抽 象 数据 类 型 的 主要 不 同 之 处 在 于 它 
将 数据 和 函数 的 实现 关联 ， 并 将 数据 的 表示 方式 隐藏 起 来 。 在 使 用 抽象 数据 类 型 时 ， 我 们 的 注意 力 
集中 在 API 描述 的 操作 上 而 不 会 去 关心 数据 的 表示 ; 在 实现 抽象 数据 类 型 时 ， 我 们 的 注意 力 集中 在 
数据 本 身 并 将 实现 对 该 数据 的 各 种 操作 。 

抽象 数据 类 型 之 所 以 重要 是 因为 在 程序 设计 上 它们 支持 封装 。 在 本 书 中 ， 我 们 将 通过 它们 : 

口 以 适用 于 各 种 用 途 的 API 形式 准确 地 定义 问题 ; 

口 用 API 的 实现 描述 算法 和 数据 结构 。 

我 们 研究 同一 个 问题 的 不 同 算法 的 主要 原因 在 于 它们 的 性 能 特点 不 同 。 抽 象 数据 类 型 正 适合 于 
对 算法 的 这 种 研究 ， 因 为 它 确保 我 们 可 以 随时 将 算法 性 能 的 知识 应 用 于 实践 中 : 可 以 在 不 修改 任何 
用 例 代 码 的 情况 下 用 一 种 算法 替换 另 一 种 算法 并 改进 所 有 用 例 的 性 能 。 


1.2.1 使 用 抽象 数据 类 型 

要 使 用 一 种 数据 类 型 并 不 一 定 非得 知道 它 是 如 何 实现 的 ， 所 以 我 们 首先 来 编写 一 个 使 用 一 种 名 
为 Counter ( 计数 器 ) 的 简单 数据 类 型 的 程序 。 它 的 值 是 一 个 名 称 和 一 个 非 负 整数 ， 它 的 操作 有 创 
建 对 象 并 初始 化 为 0、 当 前 值 加 1 和 获取 当前 值 。 这 个 抽象 对 象 在 许多 场景 中 都 会 用 到 。 例 如 ， 这 
样 一 个 数据 类 型 可 以 用 于 电子 记 票 软件 ， 它 能 够 保证 投票 者 所 能 进行 的 唯一 操作 就 是 将 他 选择 的 候 
选 人 的 计数 器 加 一 。 我 们 也 可 以 在 分 析 算法 性 能 时 使 用 Counter 来 记录 基本 操作 的 调用 次 数 。 要 使 
用 Counter 对 象 ， 首 先 需 要 了 解 应 该 如 何 定义 数据 类 型 的 操作 ， 以 及 在 Java 语言 中 应 该 如 何 创建 
和 使 用 某 个 数据 类 型 的 对 象 。 这 些 机 制 在 现代 编程 中 都 非常 重要 ， 我 们 在 全 书 中 都 会 用 到 它们 ， 因 
此 请 仔细 学 习 我 们 的 第 一 个 例子 。 
1.2.1.1 抽象 数据 类 型 的 API 

我 们 使 用 应 用 程序 编程 接口 (API ) 来 说 明 抽象 数据 类 型 的 行为 。 它 将 列 出 所 有 构造 函数 和 实 
例 方法 ( 即 操作 ) 并 简要 描述 它们 的 功用 ， 如 表 1.2.1 中 Counter 的 API 所 示 。 

尽管 数据 类 型 定义 的 基础 是 一 组 值 的 集合 ， 但 在 API 可 见 的 仅 是 对 它们 的 操作 ， 而 非 它们 的 意 
义 。 因 此 ， 抽 象 数据 类 型 的 定义 和 静态 方法 库 ( 请 见 1.1.6.3 节 ) 之 间 有 许多 共同 之 处 : 

口 两 者 的 实现 均 为 Java 类; 
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口 实例 方法 可 能 接受 0 个 或 多 个 指定 类 型 的 参数 ， 由 括号 表示 并 由 逗号 分 隔 ; 

口 它们 可 能 会 返回 一 个 指定 类 型 的 值 ， 也 可 能 不 会 (用 void 表示 ) 。 

当然 ,它们 也 有 三 个 显著 的 不 同 。 

口 API 中 可 能 会 出 现 若干 个 名 称 和 类 名 相同 且 没 有 返回 值 的 函数 。 这 些 特殊 的 函数 被 称 为 构造 
函数 。 在 本 例 中 ，Counter 对 象 有 一 个 接受 一 个 String 参数 的 构造 函数 。 65 

口 实例 方法 不 需要 static 关键 字 。 它 们 不 是 静态 方法 一 一 它们 的 目的 就 是 操作 该 数据 类 型 中 
的 值 。 

口 某 些 实例 方法 的 存在 是 为 了 尊重 Java 的 习惯 一 一 我 们 将 此 类 方法 称 为 继承 的 方法 并 在 API 
中 将 它们 显示 为 灰色 。 














表 1.2.1 计数 器 的 API 


public class Counter 





Counter(String id) 创建 一 个 名 为 id 的 计数 器 
void increment() 将 计数 器 的 值 加 1 
int tallyO 该 对 象 创建 之 后 计数 器 被 加 1 的 次 数 
String toString() 对 象 的 字符 串 表示 


和 静态 方法 库 的 API 一 样 ， 抽 象 数据 类 型 的 API 也 是 和 用 例 之 间 的 一 份 契约 ， 因 此 它 是 开 
发 任何 用 例 代 码 以 及 实现 任意 数据 类 型 的 起 点 。 在 本 例 中 ， 这 份 API 告诉 我 们 可 以 通过 构造 函数 
Counter()、 实 例 方法 increment() 和 tally()， 以 及 继承 的 toString() 方法 使 用 Counter 类 
型 的 对 象 。 
1.2.1.2 ”继承 的 方法 

根据 Java 的 约定 ， 任 意 数据 类 型 都 能 通过 在 API 中 包含 特定 的 方法 从 Java 的 内 在 机 制 中 获 
益 。 例 如 ，Java 中 的 所 有 数据 类 型 都 会 继承 toString() 方法 来 返回 用 String 表示 的 该 类 型 的 
值 。Java 会 在 用 + 运算 符 将 任意 数据 类 型 的 信和 String 值 连接 时 调用 该 方法 。 该 方法 的 默认 实 
现 并 不 实用 ( 它 会 返回 用 字符 串 表示 的 该 数据 类 型 值 的 内 存 地 址 ) ， 因 此 我 们 常常 会 提供 实现 来 
重 载 默认 实现 ， 并 在 此 时 在 API 中 加 上 toString0 方法 。 此 类 方法 的 例子 还 包括 equa1s 0) 、 
compareTo() 和 hashCode() (请 见 1.2.5.5 节 ) 。 
1.2.1.3 ”用 例 代码 

和 基于 静态 方法 的 模块 化 编程 一 样 ，API 允许 我 们 在 不 知道 实现 细节 的 情况 下 编写 调用 它 的 代 
码 (以 及 在 不 知道 任何 用 例 代码 的 情况 下 编写 实现 代码 ) 。1.1.7 节 介 绍 的 将 程序 组 织 为 独立 模块 的 
机 制 可 以 应 用 于 所 有 的 Java 类 , 因此 它 对 基于 抽象 数据 类 型 的 模块 化 编程 与 对 静态 函数 库 一 样 有 效 。 
这 样 ， 只 要 抽象 数据 类 型 的 源 代码 java 文件 和 我 们 的 程序 文件 在 同一 个 目录 下 ,或 是 在 标准 Java 
库 中 ,或 是 可 以 通过 import 语句 访问 ,或 是 可 以 通过 本 书 网 站 上 介绍 的 classpath 机 制 之 一 访问 ， 
该 程序 就 能 够 使 用 这 个 抽象 数据 类 型 ， 模 块 化 编程 的 所 有 优势 就 都 能 够 继续 发 挥 。 通 过 将 实现 某 种 
数据 类 型 的 全 部 代码 封装 在 一 个 Java 类 中 ， 我 们 可 以 将 用 例 代码 推 向 更 高 的 抽象 层次 。 在 用 例 代码 
中 ， 你 需要 声明 变量 、 创 建 对 象 来 保存 数据 类 型 的 值 并 允许 通过 实例 方法 来 操作 它们 。 尽 管 你 也 会 
注意 到 它们 的 一 些 相似 之 处 ， 但 这 种 方式 和 原始 数据 类 型 的 使 用 方式 非常 不 同 。 66 
1.2.1.4 对 象 

一 般 来 说 ， 可 以 声明 一 个 变量 heads 并 将 它 通过 以 下 代码 和 Counter 类 型 的 数据 关联 起 来 : 


Counter heads; 
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但 如 何 为 它 赋值 或 是 对 它 进行 操作 呢 ? 这 个 问题 的 答 。。 一 个 Counter 旬 
案 涉及 数据 抽象 中 的 一 个 基础 概念 : 对 象 是 能 够 承载 数据 类 和 ”om 
型 的 值 的 实体 。 所 有 对 象 都 有 三 大 重要 特性 : 状态、 标识 
和 行为。 对象 的 状态 即 数据 类 型 中 的 值 。 对 象 的 标识 份 能 够 。 heads Em 9 
将 一 个 对 象 区 别 于 另 一 个 对 象 。 可 以 认为 对 象 的 标识 就 是 


它 在 内 存 中 的 位 置 。 对 象 的 行为 就 是 数据 类 型 的 操作 。 数 据 人 
类 型 的 实现 的 唯一 职责 就是 维护 一 个 对 象 的 身份 ， 这 样 用 例 460 

代码 在 使 用 数据 类 型 时 只 需 遵守 描述 对 象 行为 的 APL 即 可 ， 

而 无 需 关 注 对 象 状态 的 表示 方法 。 对 象 的 状态 可 以 为 用 例 代 

码 提供 信息 ， 或 是 产生 革 种 副作用 ， 或 是 被 数据 类 型 的 操作 

所 改变 。 但 数据 类 型 的 值 的 表示 细节 和 用 例 代码 是 无 关 的 。 

引用 是 访问 对 象 的 一 种 方式 。Java 使 用 术语 引用 类 型 以 示 两 个 Counter 到 象 

和 原始 数据 类 型 ( 变量 和 值 相关 联 ) 的 区 别 。 不 同 的 Java 

实现 中 引用 的 实现 细节 也 各 不 相同 ， 但 可 以 认为 引用 就 是 内 et 

存 地 址 ， 如 图 1.2.1 所 示 ( 简洁 起 见 ， 图 中 的 内 存 地 址 为 三 es 

位 数 ) 。 heads 的 标识 
1.2.1.5 创建 对 象 je 2 


每 种 数据 类 型 中 的 值 都 存储 于 一 个 对 象 中 。 要 创建 (或 
实例 化 ) 一 个 对 象 ， 我 们 用 关键 字 new 并 紧 跟 类 名 以 及 O i 
(或 在 括号 中 指定 一 系列 的 参数 ， 如 果 构 造 数 需要 的 话 ) a ta A 
来 触发 它 的 构造 函数 。 构 造 函 数 没有 返回 值 ， 因 为 它 总 是 返 
回 它 的 数据 类 型 的 对 象 的 引用 。 每 当 用 例 调 用 了 new() ， 系 
统 都 会 : LL | 

口 为 新 的 对 象 分 配 内 存 空间 六 

口 调用 构造 函数 初始 化 对 象 中 的 值 ; 

口 返回 该 对 象 的 一 个 引用 。 

在 用 例 代码 中 ,我们 一 般 都 会 在 一 条 声明 语句 中 创建 一 个 对 象 并 通过 将 它 和 一 个 变量 关联 来 
初始 化 该 变量 ， 和 使 用 原始 数据 类 型 时 一 样 。 和 原始 数据 类 型 不 同 的 是 ， 变 量 关 联 的 是 指向 对 象 的 
引用 而 并 非 数据 类 型 的 值 本 身 。 我 们 可 以 用 同一 个 类 创建 无 数 对 象 一 一 每 个 对 象 都 有 自己 的 标识 ， 
且 所 存储 的 值 和 另 一 个 相同 类 型 的 对 象 可 以 相同 也 可 以 不 同 。 例 如 ， 以 下 代码 创建 了 两 个 不 同 的 
Counter 对 象 : 







Counter heads = new Counter("heads' 
Counter tails = new Counter("tai]s 


抽象 数据 类 型 向 用 例 隐藏 了 值 的 表示 细节 。 可 以 假定 每 个 Counter 对 象 中 的 值 是 一 个 String 
类 型 的 名 称 和 一 个 int 计数 器 ， 但 不 能 编写 依 环 于 任何 特定 表示 方法 的 代码 (即使 知道 假定 是 否 正 

















将 变量 和 对 象 的 引 确 一 一 也 许 计 数 器 是 一 个 1ong 值 呢 ) 对 象 
用 关联 的 声明 语句 。 调用 构造 函数 来 创建 一 个 对 象 的 创建 过 程 如 图 1.2.2 所 示 。 
Counter heads | = |[ new Counter("heads"); | ee 


图 1.2.2 创建 对 象 值 ， 因 此 Java 语言 提供 了 一 种 特别 的 机 制 来 
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触发 实例 方法 , 它 突出 了 实例 方法 和 对 象 之 间 的 联系 。 一 声明 语句 
具体 来 说 ， 我 们 调用 一 个 实例 方法 的 方式 是 先 写 出 对 
象 的 变量 名 ， 紧 接着 是 一 个 句点 ， 然 后 是 实例 方法 的 
名 称 ， 之 后 是 0 个 或 多 个 在 括号 中 并 由 逗号 分 隔 的 参 


Counter heads; 


通过 new 关 键 字 (触发 构造 函数 ) 
heads =| new Counter ("heads"); 



































数 。 实 例 方法 可 能 会 改变 数据 类 型 中 的 值 ， 也 可 能 只 地 有 机 数 《如 一个 对 旬 ) 
是 访问 数据 类 型 中 的 值 。 实 例 方法 拥有 我 们 在 1.1.6.3 。 通过 语句 《 没 有 返回 值 > 

节 讨论 过 的 静态 方法 的 所 有 性 质 一 参数 按 值 传递 eds inerenen sO; 
方法 名 可 以 被 重 载 ， 方 法 可 以 有 返回 值 ， 它 们 也 许 还 。。 对 象 名 。 好 发 SC 本 

会 产生 一 些 副作用 。 但 它们 还 有 一 个 特别 的 性 质 : 方 法 并 改变 对 象 的 值 


法 的 每 次 触发 都 是 和 一 个 对 象 相关 的 。 例 如 ， 以 下 代 。 通过 表达 式 
码 调用 了 实例 方法 increment() 来 操作 Counter 对 ead].taliyO|- tails.tallyO 
象 heads ( 在 这 里 该 操作 会 将 计数 器 的 值 加 1) : 
heads increment(); 
而 以 下 代码 会 调用 实例 方法 tal11y() 两 次 ,第 一 
次 操作 的 是 Counter 对 象 heads， 第 二 次 是 Counter 
对 象 tai1s ( 这 里 该 操作 会 返回 计数 器 的 int 值 ) : 
heads.tally() - tails.tallyO); 
以 上 示例 的 调用 过 程 见 图 1.2.3。 图 1.2.3 触发 实例 方法 的 各 种 方式 
正如 这 些 例 子 所 示 ,在 用 例 中 实例 方法 和 静态 方法 的 调用 方式 完全 相同 一 一 可 以 通过 语句 ( void 
方法 ) 也 可 以 通过 表达 式 ( 有 返回 值 的 方法 ) 。 静 态 方法 的 主要 作用 是 实现 函数 ; 非 静态 (实例 ) [68 
方法 的 主要 作用 是 实现 数据 类 型 的 操作 。 两 者 都 可 能 出 现在 用 例 代码 中 , 但 很 容易 就 可 以 区 分 它们 ， 
因为 静态 方法 调用 的 开头 是 类 名 ( 按 习 惯 为 大 写 ) ， 而 非 静 态 方法 调用 的 开头 总 是 对 象 名 ( 按 习 惯 
为 小 写 ) 。 表 1.2.2 总 结 了 这 些 不 同 之 处 。 





























f 
对 象 名 舰 发 一 个 实例 方 
法 并 访问 对 象 的 值 
通过 自动 类 型 转换 (toStringC) 


Std0ut.println([heads] ); 














+ 
触发 heads. toString() 

















表 1.2.2 实例 方法 与 静态 方法 





实例 方法 静态 方法 
举例 heads. increment() Math.sqrt(2.0) 
调用 方式 对 象 名 类 名 
参量 对 象 的 引用 和 方法 的 参数 方法 的 参数 
主要 作用 访问 或 改变 对 象 的 值 计算 返回 值 


1.2.1.7 ”使 用 对 象 

通过 声明 语句 可 以 将 变量 名 赋 给 对 象 ， 在 代码 中 ,我 们 不 仅 可 以 用 该 变量 创建 对 象 和 调用 实例 
方法 ， 也 可 以 像 使 用 整数 、 浮 点 数 和 其 他 原始 数据 类 型 的 变量 一 样 使 用 它 。 要 开发 某 种 给 定数 据 类 
型 的 用 例 ， 我 们 需要 : 

口 声明 该 类 型 的 变量 ， 以 用 来 引用 对 象 ; 

口 使 用 关键 字 new 触发 能 够 创建 该 类 型 的 对 象 的 一 个 构造 函数 ; 

口 使 用 变量 名 在 语句 或 表达 式 中 调用 实例 方法 。 

例如 ， 下 面 用 例 代码 中 的 Flips 类 就 使 用 了 Counter 类 。 它 接受 一 个 命令 行 参数 T 并 模拟 T 
次 掷 硬币 〈 它 还 调用 了 StdRandom 类 ) 。 除 了 这 些 直接 用 法 外 ， 我 们 可 以 和 使 用 原始 数据 类 型 的 
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变量 一 样 使 用 和 对 象 关联 的 变量 : 
口 赋值 语句 ; 
口 向 方法 传递 对 象 或 是 从 方法 中 返回 对 象 ; 
口 创建 并 使 用 对 象 的 数组 。 


public class Flips 


public static void main(String[] args) 
{ 


int T = Integer.parseInt(args[0]); % java Flips 10 
Counter heads = new Counter("heads"); 5 heads 
Counter tails = new Counter("tails"); 5 tails 
for (int t = 0; t <T; t++) delta: 0 
if (StdRandom.bernou11iC0.5)) | 
heads. increment(); a 
else tails.increment(); ev 
StdOut .printlnCheads); 全 
Stdout.printInCtai1s]; rd 
int d = heads.tallyQ - tails.tallyO; % java Flips 1000000 
StdOut.printInC"delta: ”+ Math.absCd)); 499710 heads 
} 500290 tails 
} delta: 580 


Counter 类 的 用 例 ， 模 拟 T 次 掷 硬币 


接 下 来 将 逐个 分 析 它 们 。 你 会 发 现 ， 你 需要 从 引用 而 非 值 的 。 counter cli 


角度 去 考虑 问题 才能 理解 这 些 用 法 的 行为 。 9 
1.2.1.8 赋值 语句 Counter c2 = cl; 

使 用 引用 类 型 的 赋值 语句 将 会 创建 该 引用 的 一 个 副本 。 赋值 cincrenentOi 
语句 不 会 创建 新 的 对 象 ， 而 只 是 创建 另 一 个 指向 某 个 已 经 存在 的 一 


对 象 的 引用 。 这 种 情况 被 称 为 别名 : 两 个 变量 同时 指向 同一 个 对 
象 。 别 名 的 效果 可 能 会 出 乎 你 的 意料 ， 因 为 对 于 头 始 数据 类 型 的 el | 村 Pe 
811 


变量 ， 情 况 不 同 ， 你 必须 理解 其 中 的 差异 。 如 果 x 和 y 是 原始 数 c2 对 象 的 引用 


据 类 型 的 变量 ， 那 么 赋值 语句 x = y 会 将 y 的 值 复制 到 x 中 。 对 
于 引用 类 型 ， 复 制 的 是 引用 ( 而 非 实际 的 值 ) 。 在 Java 中 ， 别 名 
是 bug 的 常见 原因 ， 如 下 例 所 示 (图 1.2.4) : 


Counter cl = new Counter("ones"); 

cl1.increment(); 

Counter c2 = cl; 

Cc2.increment(); 

StdOut.printin(c1); 811 


对 于 一 般 的 toStringQ 实现 ， 这 段 代码 将 会 打印 出 "2 -本 
[| 


指向 "ones" 
的 引用 





ones"。 这 可 能 并 不 是 我 们 想 要 的 ， 而 且 乍 一 看 有 些 奇 怪 。 这 种 
问题 经 常 出 现在 使 用 对 象 经 验 不 足 的 人 所 编写 的 程序 之 中 ( 可 能 
就 是 你 ， 所 以 请 集中 注意 力 ! ) 。 改 变 一 个 对 象 的 状态 将 会 影响 
到 所 有 和 该 对 象 的 别名 有 关 的 代码 。 我 们 习惯 于 认为 两 个 不 同 的 图 124 别名 





1.2 数据 抽象 号 43 


原始 数据 类 型 的 变量 是 相互 独立 的 ， 但 这 种 感觉 对 于 引用 类 型 的 变量 并 不 适用 。 
1.2.1.9 “将 对 象 作为 参数 图 
可 以 将 对 象 作为 参数 传递 给 方法 ， 这 一 般 都 能 简化 用 例 代 码 。 例 如 ， 当 我 们 使 用 Counter 对 
象 作为 参数 时 ， 本 质 上 我 们 传递 的 是 一 个 名 称 和 一 个 计数 器 ， 但 我 们 只 需要 指定 一 个 变量 。 当 我 
们 调用 一 个 需要 参数 的 方法 时 ， 该 动作 在 Java 中 的 效果 相当 于 每 个 参数 值 都 出 现在 了 一 个 赋值 
语句 的 右 侧 ， 而 参数 名 则 在 该 赋值 语句 的 左 侧 。 也 就 是 说 ，Java 将 参数 值 的 一 个 副本 从 调用 端 
传递 给 了 方法 ， 这 种 方式 称 为 按 值 传递 ( 请 见 1.1.6.3 节 ) 。 这 种 方式 的 一 个 重要 后 果 是 方法 无 
法 改变 调用 端 变 量 的 值 。 对 于 原始 数据 类 型 来 说 ， 这 种 策略 正 是 我 们 所 期 望 的 ( 两 个 变量 互相 独 
立 ) ， 但 每 当 使 用 引用 类 型 作为 参数 时 我 们 创建 的 都 是 别名 ， 所 以 就 必须 小 心 。 换 句 话说 ， 这 种 
约定 将 会 传递 引用 的 值 ( 复制 引用 ) ， 也 就 是 传递 对 象 的 引用 。 例 如 ， 如 果 我 们 传递 了 一 个 指向 
Counter 类 型 的 对 象 的 引用 ， 那 么 方法 虽然 无 法 改变 原始 的 引用 ( 比如 将 它 指向 另 一 个 Counter 
对 象 ) ， 但 它 能 够 改变 该 对 象 的 值 ， 比 如 通过 该 引用 调用 increment () 方法 。 
1.2.1.10 ”将 对 象 作为 返回 值 
当然 也 能 够 将 对 象 作 为 方法 的 返回 值 。 方 法 可 以 将 它 的 参数 对 象 返回 ， 如 下 面 的 例子 所 示 ， 也 
可 以 创建 一 个 对 象 并 返回 它 的 引用 。 这 种 能 力 非常 重要 ， 因 为 Java 中 的 方法 只 能 有 一 个 返回 值 一 一 
有 了 对 象 我 们 的 代码 实际 上 就 能 返回 多 个 值 。 





public class FlipsMax 
{ 
public static Counter max(Counter x, Counter y) 


if (x.tallyO) > y.tallyO) return xi 
else return y; 


} 


pubiic static void mair(String[] args) 
{ 
int T = Integer.parseInt(args[0]); 
Counter heads = new Counter("heads"); 
Counter tails = new Counter("tails"); 
for (int t = 0; t <T; t++) 
if (StdRandbm.bernou11i(0.5)) 
heads. increment(); 


Rn to else tails.increment(); 


500281 tails wins 
if (heads.tallyO == tails.tallyO) 
Stdgut.println("Tie"); 
else StdOut.println(max(heads，tai1s) + " wins”); 
} 
} 
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1.2.1.11 数组 也 是 对 象 

在 Java 中 ， 所 有 非 原始 数据 类 型 的 值 都 是 对 象 。 也 就 是 说 ， 数 组 也 是 对 象 。 和 字符 串 一 样 ， 
Java 语言 对 于 数组 的 某 些 操作 有 特殊 的 支持 : 声明 、 初 始 化 和 索引 。 和 其 他 对 象 一 样 ， 当 我 们 将 数 
组 传递 给 一 个 方法 或 是 将 一 个 数组 变量 放 在 赋值 语句 的 右 侧 时 ， 我 们 都 是 在 创建 该 数组 引用 的 一 个 
副本 ， 而 非 数组 的 副本 。 对 于 一 般 情况 ， 这 种 效果 正 合适 ， 因 为 我 们 期 望 方法 能 够 重新 安排 数组 的 
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条 目 并 修改 数组 的 内 容 , 如 java.utils.Array.sort() 或 表 1.1.10 讨论 的 shuffle() 方法 。 
1.2.1.12 ”对 象 的 数组 

我 们 已 经 看 到 ， 数 组 元 素 可 以 是 任意 类 型 的 数据 : 我 们 实现 的 main( 方法 的 args[] 参数 就 
是 一 个 String 对 象 的 数组 。 创 建 一 个 对 象 的 数组 需要 以 下 两 个 步骤: 

口 使 用 方 括号 语法 调用 数组 的 构造 函数 创建 数组 ; 

口 对 于 每 个 数组 元 素 调用 它 的 构造 函数 创建 相应 的 对 象 。 

例如 ， 下 面 这 段 代码 模拟 的 是 掷 仍 子 。 它 使 用 了 一 个 Counter 对 象 的 数组 来 记录 每 种 可 能 的 值 
的 出 现 次 数 。 在 Java 中 ， 对 象 数组 即 是 一 个 由 对 象 的 引用 组 成 的 数组 ， 而 非 所 有 对 象 本 身 组 成 的 数 
组 。 如 果 对 象 非常 大 , 那么 在 移动 它们 时 由 于 只 需要 操作 引用 而 非 对 象 本 身 , 这 就 会 大 大 提高 效率 ; 
如 果 对 象 很 小 ， 每 次 获取 信息 时 都 需要 通过 引用 反而 会 降低 效率 。 


public class Rolls 
{ 
public static void main(String[] args) 


int T = Integer.parseInt(args[0]); 

int SIDES = 6; 

Counter[] rolls = new Counter[SIDES+1]; 

for (int i = 1; i <= SIDES; i++) 
rolls[i] = new Counter(i + "'s"); 


for Cint t = 0; t <T; t++) 


int result = StdRandom.uniform(1, SIDES+1); % java Rolls 1000000 
rolls[result]. increment(); 167308 1's 
} 166540 2's 
for (int 1 = 1; 1 <= SIDES; i++) 166087 3's 
StdOut.print1n(rolls[i]); 167051 4's 
} 166422 5's 
} 166592 6's 


模拟 T 次 掷 般 子 的 Counter 对 象 的 用 例 


有 了 这 些 对 象 的 知识 ， 运 用 数据 抽象 的 思想 编写 代码 (定义 和 使 用 数据 类 型 ， 将 数据 类 型 的 
值 封装 在 对 象 中 ) 的 方式 称 为 面向 对 象 编程 。 刚 才学 习 的 基本 概念 是 我 们 面向 对 象 编程 的 起 点 ， 
因此 有 必要 对 它们 进行 简单 的 总 结 。 数 据 类 型 指 的 是 一 组 值 和 一 组 对 值 的 操作 的 集合 。 我 们 会 将 
数据 类 型 实现 在 独立 的 Java 类 模块 中 并 编写 它们 的 用 例 。 对 象 是 能 够 存储 任意 该 数据 类 型 的 值 的 
实体 ， 或 数据 类 型 的 实例 。 对 象 有 三 大 关键 性 质 ， 状 态 、 标 识 和 行为 。 一 个 数据 类 型 的 实现 所 支 
持 的 操作 如 下 。 

口 创建 对 象 (创造 它 的 标识 ) : 使 用 new 关键 字 触 发 构造 函数 并 创建 对 象 ， 初 始 化 对 象 中 的 

值 并 返回 对 它 的 引用 。 

口 操作 对 象 中 的 值 ( 控制 对 象 的 行为 ， 可 能 会 改变 对 象 的 状态 ) : 使 用 和 对 象 关联 的 变量 调用 

实例 方法 来 对 对 象 中 的 值 进行 操作 。 

口 操作 多 个 对 象 : 创建 对 象 的 数组 ， 像 原始 数据 类 型 的 值 一 样 将 它们 传递 给 方法 或 是 从 方法 中 

返回 ， 只 是 变量 关联 的 是 对 象 的 引用 而 非 对 象 本 身 。 

这 些 能 力 是 这 种 灵活 且 应 用 广泛 的 现代 编程 方式 的 基础 , 也 是 我 们 在 本 书 中 对 算法 研究 的 基础 。 
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1.2.2 ”抽象 数据 类 型 举例 

Java 语 言 内 置 了 上 千 种 抽象 数据 类 型 , 我 们 也 会 为 了 辅助 算法 研究 创建 许多 其 他 抽象 数据 类 型 。 
实际 上 ， 我 们 编写 的 每 一 个 Java 程序 实现 的 都 是 某 种 数据 类 型 ( 或 是 一 个 静态 方法 库 ) 。 为 了 控制 
复杂 度 ， 我 们 会 明确 地 说 明 在 本 书 中 用 到 的 所 有 抽象 数据 类 型 的 API ( 实际 上 并 不 多 ) 。 

在 本 节 中 ， 我 们 会 举 一 些 抽象 数据 类 型 的 例子 ， 以 及 它们 的 一 些 用 例 。 在 某 些 情况 下 ， 我 们 会 
节选 一 些 含有 数 十 个 方法 的 API 的 一 部 分 。 我 们 将 会 用 这 些 API 展示 一 些 实例 以 及 在 本 书 中 会 用 到 
的 一 些 方法 ， 并 用 它们 说 明 要 使 用 一 个 抽象 数据 类 型 并 不 需要 了 解 其 实现 细节 。 

作为 参考 ， 下 页 显示 了 我 们 在 本 书 中 将 会 用 到 或 开发 的 所 有 数据 类 型 。 它 们 可 以 被 分 为 以 下 
几 类 。 

口 java. 1ang.* 中 的 标准 系统 抽象 数据 类 型 ， 可 以 被 任意 Java 程序 调用 。 

口 Java 标准 库 中 的 抽象 数据 类 型 ， 如 java.swt、java.net 和 javaio， 它 们 也 可 以 被 任意 Java 程 

序 调 用 ， 但 需要 import 语句 。 

口 VO 处 理 类 抽象 数据 类 型 ， 和 StdIn 和 StdOut 类 似 ， 人 允许 我 们 处 理 多 个 输入 输出 流 。 

口 面向 数据 类 抽象 数据 类 型 ， 它 们 的 主要 作用 是 通过 封装 数据 的 表示 简化 数据 的 组 织 和 处 理 。 
稍 后 在 本 节 中 我 们 将 介绍 在 计算 几何 和 信息 处 理 中 的 几 个 实际 应 用 的 例子 ， 并 会 在 以 后 将 它 
们 作为 抽象 数据 类 型 用 例 的 范例 。 

口 集合 类 抽象 数据 类 型 , 它们 的 主要 用 途 是 简化 对 同一 类 型 的 一 组 数据 的 操作 。 我们 将 会 在 1.3 
节 中 介绍 基本 的 Bag、Stack 和 Queue 类 ,在 第 2 章 中 介绍 优先 队列 ( PQ ) 及 其 相关 的 类 ， 
在 第 3 章 和 第 5 章 中 分 别 介绍 符号 表 ( ST ) 和 集合 ( SET ) 以 及 相关 的 类 。 

口 面向 操作 的 抽象 数据 类 型 ， 我 们 用 它们 分 析 各 种 算法 ， 如 1.4 节 和 1.5 节 所 述 。 

口 图 算法 相关 的 抽象 数据 类 型 ， 它 们 包括 一 些 用 来 封装 各 种 图 的 表示 的 面向 数据 的 抽象 数据 类 
型 ， 和 一 些 提供 图 的 处 理 算法 的 面向 操作 的 抽象 数据 类 型 。 

这 个 列表 中 并 没有 包含 我 们 将 在 练习 中 遇 到 的 某 些 抽象 数据 类 型 ， 读 者 可 以 在 本 书 的 索引 中 找 
到 它们 。 另 外 , 如 1.2.4.1 节 所 述 ,我 们 常常 通过 描述 性 的 前 缀 来 区 分 各 种 抽象 数据 类 型 的 多 种 实现 。 
从 整体 上 来 说 ， 我 们 使 用 的 抽象 数据 类 型 说 明 组 织 并 理解 你 所 使 用 的 数据 结构 是 现代 编程 中 的 重要 
因素 。 

一 般 的 应 用 程序 可 能 只 会 使 用 这 些 抽象 数据 类 型 中 的 5 ~ 10 个 。 在 本 书 中 ， 开 发 和 组 织 抽象 
数据 类 型 的 主要 目标 是 使 程序 员 们 在 编写 用 例 时 能 够 轻易 地 利用 它们 的 一 小 部 分 。 74 
1.2.2.1 几何 对 象 

面向 对 象 编程 的 一 个 典型 例子 是 为 几何 对 象 设计 数据 类 型 。 例 如 ， 表 1.2.3 至 表 1.2.5 中 的 API 
为 三 种 常见 的 几何 对 象 定 义 了 相应 的 抽象 数据 类 型 ; Point2D (平面 上 的 点 ) 、Interva11D ( 直线 
上 的 间隔 ) 、Interva12D (平面 上 的 二 维 间隔 ， 即 和 数 轴 对 齐 的 长 方形 ) 。 和 以 前 一 样 ， 这 些 API 
都 是 自 文档 化 的 ， 它 们 的 用 例 十 分 容易 理解 ， 列 在 了 表 1.2.5 的 后 面 。 这 段 代码 从 命令 行 读 取 一 个 
Interva120D 的 边界 和 一 个 整数 7， 在 单位 正方 形 内 随机 生成 7 个 点 并 统计 落 在 间隔 之 内 的 点 数 (用 
来 估计 该 长 方形 的 面积 ) 。 为 了 表现 效果 ， 用 例 还 画 出 了 间隔 和 落 在 间隔 之 外 的 所 有 点 。 这 种 计算 
方法 是 一 个 模型 , 它 将 计算 几何 图 形 的 面积 和 体积 的 问题 转化 为 了 判定 一 个 点 是 否 落 在 该 图 形 中 ( 稍 
稍 简单 , 但 仍然 不 那么 容易 ) 。 我 们 当然 也 能 为 其 他 几何 对 象 定义 API， 比 如 线段 、 三 角形 、 多 边 形 、 
圆 等 ， 不 过 实现 它们 的 相关 操作 可 能 十 分 有 挑战 性 。 本 节 未 尾 的 练习 会 考察 其 中 几 个 例子 。 
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java.lang 中 的 标准 Java 系统 类 型 集合 类 数据 类 型 
Integer int 的 封装 类 Stack 下 压 栈 
Double double 的 封装 类 Queue 先进 先 出 (FIFO ) 队列 
String 可 由 索引 访问 的 Bag 包 
ha 全 序列 MinpQ, MaxPQ 优先 队列 
Stringbutlder 字符 申 构造 类 IndexMinPQ IndexMaxPQ ”索引 优先 队列 
其 他 Java 数据 类 型 SF 符号 表 
java.awt.Color 。 颜色 2 集合 
dn taht ge StringsT 符号 表 (字符 中 键 ) 
java.net.URL URL 面向 数据 的 图 数据 闫 型 
java.io.File 文件 piht 元 向 图 
我 们 的 标准 1O 类 型 cot 有 向 图 
In 输入 流 Edge 边 (加 权 ) 
our 输出 流 EdgeweightedGraph 无 向 图 (加权 ) 
Draw 绘图 类 DirectedEdge 边 (有 向 ， 加权) 
用 于 用 例 的 面向 数据 的 数据 类 型 EdgeweightedDigraph ”图 (有 向 加权 ) 
point2D 平面 上 的 点 而 各 操作 的 国政 所 类 到 
IntervallD - 维 间隔 UF 动态 连通 性 
Treervalan 提取 DepthFirstpaths 路 径 的 深度 优先 搜索 
buss 日 cc 连通 分 量 
Tee 换 位 BreadthFirstPaths 路 径 的 广度 优先 搜索 
用 于 算法 分 析 的 数据 类 型 DirectedDFS 有 向 图 路 径 的 深度 优先 搜索 
Countar 计 娄 和 DirectedBFS 有 向 图 路 径 的 广度 优先 搜索 
A 暴 加 器 TransitiveClosure 所 有 路 径 
VisualAccumulator 可 视 累 加 器 Topological 拓扑 排序 
Pr 计时 器 DepthFirstOrder 
DirectedCycle 环 的 搜索 
SCC 强 连 通 分 量 
MST 最 小 生成 树 
SP 最 短路 径 
本 书 中 使 用 的 部 分 抽象 数据 类 型 
表 1.2.3 平面 上 的 点 的 API 
public class Point2D 
Point2DCdouble x, double y) 创建 一 个 点 
double xO 坐标 
double yO ?坐标 
double rO 极 径 ( 极 坐标 ) 
double thetaO 极 角 ( 极 坐标 ) 


double distTo(Point2D that) 


void draw(O) 


从 该 点 到 that 的 欧 儿 里 德 距离 


用 StdDraw 绘 出 
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表 1.2.4 直线 上 间隔 的 API 





public class IntervallD 





IntervallD(double 10, double hi) 创建 一 个 间隔 
double lengthO) 间隔 长 度 
boolean contains(double x) x 是 否 在 间隔 中 
boolean intersect(IntervallD that) 该 间隔 是 否 和 间隔 that 相交 
void draw() 用 StdDraw 绘 出 该 间隔 





表 1.2.5 平面 上 的 二 维 间隔 的 API 





public class Interval2D 





Interval2D(IntervallD x, IntervallD y) 创建 一 个 二 维 间隔 
double area() - 维 间隔 的 面积 
boolean contains(Point2D p) p 是 否 在 二 维 间隔 中 
boolean intersect(Interval2D that) 该 间隔 是 否 和 二 维 间隔 that 相交 
void draw() 用 StdDraw 绘 出 该 二 维 间隔 





public static void main(String[] args) 
内 


double xlo = Double.parseDouble(args[0]); 
double xhi = Double.parseDouble(args[1]); 
double ylo = Double.parseDouble(args[2]); 
double yhi = Double.parseDouble(args[3]); 
int T = Integer.parseIn:(args[4]); 


IntervallD xinterval = new IntervallD(xlo, xhi); 
IntervallD yinterval = new IntervallD(ylo, yhi); 
Interval2D box = new Interval2D(x, y); 
box.drawO); 


Counter c = new Counter("hits" 


for (int t = 0; t < T; t++) PS 
, | 
double x = Math.randomC); SS 
double y = Math.randomO; 
Point2D p = new Point(x, y); 
if (box.contains(p)) c.increment(); 








else p-.drawO; 
} 
StdOut.print1n(e); 
Std0ut.println(box.area()); % java Interval2D .2 .5 .5 .6 10000 
} 297 hits 
.03 
Interva12D 的 测试 用 例 


处 理 几 何 对 象 的 程序 在 自然 世界 模型 、 科 学 计算 、 电 子 游戏 、 电 影 等 许多 应 用 的 计算 中 有 着 广 
泛 的 应 用 。 此 类 程序 的 研发 已 经 发 展 成 了 计算 几何 学 的 这 门 影响 深远 的 研究 学 科 。 在 贯穿 全 书 的 众 
多 例子 中 你 会 看 到 ， 我 们 在 本 书 中 学 习 的 许多 算法 在 这 个 领域 都 有 应 用 。 在 这 里 我 们 要 说 明 的 是 直 
接 表示 几何 对 象 的 抽象 数据 类 型 的 定义 并 不 困难 且 在 用 例 中 的 应 用 也 十 分 简洁 。 本 书 网 站 和 本 节 未 
尾 的 若干 练习 都 证 明了 这 一 点 。 
1.2.2.2 ”信息 处 理 

无 论 是 需要 处 理 数 百 万 信用 卡 交易 的 银行 ， 还 是 需要 处 理 数 十 亿 点 击 的 网 络 分 析 公 司 ， 或 是 需 





48 bP 第 l 章 基础 


要 处 理 数 百 万 实验 观察 结果 的 科学 研究 小 组 ， 无 数 应 用 的 核心 都 是 组 织 和 处 理 信息 。 抽 象 数据 类 型 
是 组 织 信息 的 一 种 自然 方式 。 虽 然 没有 给 出 细节 ， 表 1.2.6 中 的 两 份 API 也 展示 了 商业 应 用 程序 中 
的 一 种 典型 做 法 。 这 里 的 主要 思想 是 定义 和 真实 世界 中 的 物体 相对 应 的 对 象 。 一 个 日 期 就 是 一 个 日 、 
月 和 年 的 集合 ,一 笔 交 易 就 是 一 个 客户 、 日 期 和 人 金额 的 集合 。 这 只 是 两 个 例子 , 我 们 也 可 以 为 客户 、 
时 间 、 地 点 、 商 品 、 服 务 和 其 他 任何 东西 定义 对 象 以 保存 相关 的 信息 。 每 种 数据 类 型 都 包含 能 够 创 
建 对 象 的 构造 函数 和 用 于 访问 其 中 数据 的 方法 。 为 了 简化 用 例 的 代码 ， 我 们 为 每 个 类 型 都 提供 了 两 
个 构造 函数 , 一 个 接受 适当 类 型 的 数据 , 另 一 个 则 能 够 解析 字符 串 中 的 数据 ( 细节 请 见 练习 1.2.19 ) 。 
和 以 前 一 样 ， 用 例 并 不 需要 知道 数据 的 表示 方法 。 用 这 种 方式 组 织 数 据 最 常见 的 理由 是 将 一 个 对 象 
和 它 相关 的 数据 变 成 一 个 整体 : 我 们 可 以 维护 一 个 Transaction 对 象 的 数组 ， 将 Date 值 作为 参数 
或 是 某 个 方法 的 返回 值 等 。 这 些 数据 类 型 的 重点 在 于 封装 数据 ， 同 时 它们 也 可 以 确保 用 例 的 代码 不 
依赖 于 数据 的 表示 方法 。 我 们 不 会 深究 这 种 组 织 信息 的 方式 , 需要 注意 的 只 是 这 种 做 法 ， 以 及 实现 
继承 的 方法 toString() 、compareTo() 、equals() 和 hashCode() 可 以 使 我 们 的 算法 处 理 任意 类 
型 的 数据 。 我 们 会 在 1.2.5.4 节 中 详细 讨论 继承 的 方法 。 例 如 ,我们 已 经 注意 到 ， 根 据 Java 的 习惯 ， 
在 数据 结构 中 包含 一 个 toString0) 的 实现 可 以 帮助 用 例 打印 出 由 对 象 中 的 值 组 成 的 一 个 字符 串 。 
我 们 会 在 1.3 节 、2.5 节 、3.4 节 和 3.5 节 中 用 Date 类 和 Transaction 类 作为 例子 考察 其 他 继承 的 
方法 所 对 应 的 习惯 用 法 。1.3 节 给 出 了 有 关 数 据 类 型 和 Java 语言 的 类 型 参数 ( 泛 型 ) 机 制 的 几 个 经 
典 例子 ， 它 们 都 遵循 了 这 些 习惯 用 法 。 第 2 章 和 第 3 章 也 都 利用 了 泛 型 和 继承 的 方法 来 实现 可 以 处 
理 任 意 数据 类 型 的 高 效 排序 和 查找 算法 。 


表 1.2.6 商业 应 用 程序 中 的 示例 API (日 期 和 交易 ) 


public class Date implements Comparable<Date> 





DateCint month, int day, int year) 创建 一 个 日 期 
Date(String date) 创建 一 个 日 期 (解析 字符 串 的 构造 函数 ) 
int month(O) 月 
int dayO 日 
int yearO 年 
String toString() 对 象 的 字符 串 表示 
boolean equals(Object that) 该 日 期 和 that 是 否 相同 
int compareTo(Date that) 将 该 日 期 和 that 比较 
int hashcodeO 散 列 值 





public class ”Transaction implements Comparable<Transaction> 


Transaction(String who, Date when, 
double amount) 





Transaction(String transaction) 创建 一 笔 交易 〔 解析 字符 串 的 构造 函数 ) 
String whoO 客户 名 
Date whenO 交易 日 期 
double 。 amountO 交易 金额 
String toString() 对 象 的 字符 串 表示 
boolean equals(Object that) 该 笔 交易 和 that 是 否 相同 
int compareTo(Date that) 将 该 笔 交 易 和 that 比较 


int hashCode() 散 列 值 
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每 当 遇 到 逻辑 上 相关 的 不 同类 型 的 数据 时 ， 你 都 应 该 考虑 像 刚 才 的 例子 那样 定义 一 个 抽象 数据 
类 型 。 这 么 做 能 够 帮助 我 们 组 织 数据 并 在 一 般 应 用 程序 中 极 大 地 简化 使 用 者 的 代码 。 它 是 我 们 在 通 78 
向 数据 抽象 之 路 上 迈 出 的 重要 一 步 。 太 
1.2.2.3 ”字符 串 

Java 的 String 是 一 种 重要 而 实用 的 抽象 数据 类 型 。 一 个 String 值 是 一 串 可 以 由 索引 访问 的 
char 值 。String 对 象 拥有 许多 实例 方法 ， 如 表 1.2.7 所 示 。 














表 1.2.7 Java 的 字符 串 API (部 分 ) 





Public class String 





StringO 创建 一 个 空 字符 串 
int length() 字符 串 长 度 
int charAtCint i) 第 i 个 字符 


int indexOf(String p) p 第 一 次 出 现 的 位 置 ( 如 果 没有 则 返回 -1) 


int indexOf(String p, int i) 


p 在 i 个 字符 后 第 一 次 出 现 的 位 置 ( 如 果 没有 则 返回 -1 ) 


String concat(String t) 将 七 附 在 该 字符 串 末尾 
String substring(Cint i, int j) 该 字符 串 的 子 字 符 串 (第 i 个 字符 到 第 j-1 个 字符 ) 
String[] split(String delim) 使 用 delim 分 隔 符 切 分 字符 串 
int compareTolString t) 比较 字符 串 
boolean equals(String t) 该 字符 串 的 值 和 + 的 值 是 否 相 辣 
int hashCode() 散 列 什 





String 值 和 字符 数组 类 似 ， 但 两 者 是 不 同 的 。 数 组 能 够 通过 Java 语言 的 内 置 语法 访问 每 个 字 
符 ，String 则 为 索引 访问 、 字 符 串 长 度 以 及 其 他 许多 操作 准备 了 实例 方法 。 另 一 方面 ，Java 语言 
为 String 的 初始 化 和 连接 提供 了 特别 的 支持 : 我 们 可 以 直接 使 用 字符 串 字面 量 而 非 构造 函数 来 创 
建 并 初始 化 一 个 字符 串 ， 还 可 以 直接 使 用 + 运算 符 代 替 concat() 方法 。 我 们 不 需要 了 解 实现 的 细 


节 ， 但 是 在 第 5 章 中 你 会 看 到 ， 了 解 某 些 方法 的 性 能 特点 
在 开发 字符 串 处 理 算法 时 是 非常 重要 的 。 为 什么 不 直接 使 
用 字符 数组 代替 String 值 ? 对 于 任何 抽象 数据 类 型 ， 这 
个 问题 的 答案 都 是 一 样 的 ， 为 了 使 代码 更 加 简洁 清晰 。 有 
了 String 类 型 我 们 可 以 写 出 清晰 干净 的 用 例 代码 而 无 


String a = "now is "; 
String b = "the time "; 
String c = "to" 
方法 
a. lengthO) 
a.charAt(4) 











需 关心 字符 串 的 表示 方式 。 先 看 一 下 右 侧 这 段 短小 的 列表 ， es ti 

其 中 甚至 含有 一 些 需要 我 们 在 第 5 章 才 会 学 到 的 高 级 算法 。 a.substringC2, 5) | "w i" 
才能 实现 的 强大 操作 。 例 如 ，sp1it 0 方法 的 参数 可 以 是 asplit(”")[0] | "now" 

正则 表达 式 (请 见 54 节 ) , “典型 的 字符 串 处 理 代码 ”( 显 sp tC C2 er 

示 在 下 页 ) 中 sp1itO 的 参数 是 "\\s+"， 它 表示 “一 个 或 

多 个 制 表 符 、 空 格 、 换 行 符 或 回 车 ”。 字符 串 操作 举例 0 
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全 ;者 实 现 
判断 字符 串 是 否 是 一 条 回 文 public static boolean ispalindrome(String s) 
{ 





int N = s.lengthO; 
for (Cint i = 0; i < N/2; i++) 
if (s.charAt(i) != s.charAt(N-1-1)) 
return false; 
return true; 


从 一 个 命令 行 参 数 中 提取 文件 名 和 String s = args[0]; 
扩展 名 int dot = s.indexOF("."); 
String base = s.substring(0, dot); 
String extension = s.substring(dot + 1, s.length()); 


打印 出 标准 输入 中 所 有 含有 通过 命 String query = args[0]; 
令 行 指定 的 字符 串 的 行 bi (!StdIn.isEmpty()) 


String s = StdIn.readLine(); 
if (s.contains(query)) StdOut.printIn(s); 


以 空白 字符 为 分 隔 符 从 Stdin 中 创 。 String input = StdIn.readA110); 
建 一 个 字符 串 数组 String[] words = input.split("\\s+"); 


检查 一 个 字符 串 数组 中 的 元 素 是 否 “public boolean isSorted(String[] a) 
已 按照 字母 表 顺 序 排列 时 
for (int i = 1; i < a.length; i++) 
{ 


if (a[i-1] .compareToCafi]) > 0) 
return false; 


return true; 


} 
典型 的 字符 串 处 理 代码 


1.2.2.4 再 谈 输入 输出 

1.1 节 中 的 StdIn、StdOut 和 StdDraw 标准 库 的 一 个 缺点 是 对 于 任意 程序 ， 我 们 只 能 接受 一 个 
输入 文件 、 向 一 个 文件 输出 或 是 产生 一 幅 图 像 。 有 了 面向 对 象 编程 ， 我 们 就 能 定义 类 似 的 机 制 来 在 
一 个 程序 中 同时 处 理 多 个 输入 流 、 输 出 流 和 图 像 。 具 体 来 说 ， 我 们 的 标准 库 定义 了 数据 类 型 In、 
Out 和 Draw， 它 们 的 API 如 表 1.2.8 至 表 1.2.10 所 示 。 当 使 用 一 个 String 类 型 的 参数 调用 它们 的 
构造 函数 时 ，In 和 Out 会 首先 尝试 在 当前 目录 下 查找 指定 的 文件 。 如 果 找 不 到 ， 它 会 假设 该 参数 
是 一 个 网 站 的 名 称 并 尝试 连接 到 那个 网 站 ( 如 果 该 网 站 不 存在 ， 它 会 抛 出 一 个 运行 时 异常 )。 无 论 
哪 种 情况 ， 指 定 的 文件 或 网 站 都 会 成 为 被 创建 的 输入 或 输出 流 对象 的 来 源 或 目标 ， 所 有 read*() 和 
print*() 方法 都 会 指向 那个 文件 或 网 站 ( 如 果 你 使 用 的 是 无 参数 的 构造 函数 ， 对 象 将 会 使 用 标准 
的 输入 输出 流 ) 。 这 种 机 制 使 得 单个 程序 能 够 处 理 多 个 文件 和 图 像 ， 你 也 能 将 这 些 对 象 赋 给 变量 ， 
将 它们 当做 方法 的 参数 、 作 为 方法 的 返回 值 或 是 创建 它们 的 数组 ， 可 以 像 操 作 任何 类 型 的 对 象 那样 
操作 它们 。 下 页 所 示 的 程序 Cat 就 是 一 个 In 和 Out 的 用 例 ， 它 使 用 了 多 个 输入 流 来 将 多 个 输入 文 
件 归 并 到 同一 个 输出 文件 中 。In 和 Out 类 也 包括 将 仅 含 int、double 或 String 类 型 值 的 文件 读 
取 为 一 个 数组 的 静态 方法 ( 请 见 1.3.1.5 节 和 练习 1.2.15 ) 。 
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public class Cat 











上 ‘ 
public static void main(String[] args) 
{ // 将 所 有 输入 文件 复制 到 输出 流 ( 最 后 一 个 参数 ) 中 % more inl.txt 
Out out = new Out(args[args. length-1]); This is 
for (int i = 0; i < args.length - 1; i++) 
{ // 将 第 1 个 输入 文件 复制 到 输出 流 中 % more in2.txt 
In in = new In(args[i]); a tiny 
String s = in.readA110); test. 
out.println(s); 了 i 
ps % java Cat inl.txt in2.txt out,txt 
了 % more out.txt 
out.closeO); This is 
} a tiny 
了 test. 
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In 和 Out 的 用 例 示例 


表 1.2.8 我 们 的 输入 流 数据 类 型 的 API 





public class In 





InO 从 标准 输入 创建 输入 流 
In(String name) 从 文件 或 网 站 创建 输入 流 
boolean isEmptyO 如 果 输 入 流 为 空 则 返回 true， 否 则 返回 false 
int readIntO 读 取 一 个 int 类 型 的 值 
double “readDoubleO) 读 取 一 个 doub1e 类 型 的 值 
void closeO) 关闭 输入 流 


注 :In 对 象 也 支持 StdIn 所 支持 的 所 有 操作 


表 1.2.9 我 们 的 输出 流 数据 类 型 的 API 
public class Out 





outO 从 标准 输出 创建 输出 流 

Out (CString name) 从 文件 创建 输出 流 
void print(String s) 将 s 添加 到 输出 流 中 
void printin(String s) 将 5 和 一 个 换行 符 添加 到 输出 流 中 
void printlnO 将 一 个 换行 符 添加 到 输出 流 中 
void printf(String f, ...) 格式 化 并 打印 到 输出 流 中 
void closeQO) 关闭 输出 流 


注 : Out 对 象 也 支持 StdOut 所 支持 的 所 有 操作 
表 1.2.10 ”我 们 的 绘图 数据 类 型 的 API 


public class Draw 





DrawO) 
void line(double x0, double y0, double x1, double y1) 
void point(double x, double y) 














注 : Draw 对 象 也 支持 StdDraw 所 支持 的 所 有 操作 83 
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1.2.3 ”抽象 数据 类 型 的 实现 

和 静态 方法 库 一 样 ， 我 们 也 需要 使 用 Java 的 类 ( class ) 实现 抽象 数据 类 型 并 将 所 有 代码 放 人 
一 个 和 类 名 相同 并 带 有 java 扩展 名 的 文件 中 。 文 件 的 第 一 部 分 语句 会 定义 表示 数据 类 型 的 值 的 实 
例 变 量 。 它 们 之 后 是 实现 对 数据 类 型 的 值 的 操作 的 构造 函数 和 实例 方法 。 实 例 方法 可 以 是 公共 的 (在 
API 中 说 明 ) 或 是 私有 的 〔 用 于 辅助 计算 ， 用 例 无 法 使 用 ) 。 一 个 数据 类 型 的 定义 中 可 能 含有 多 个 
构造 函数 ， 而 且 也 可 能 含有 静态 方法 ， 特 别 是 单元 测试 用 例 main() ， 它 通常 在 调试 和 测试 中 很 实 
用 。 作 为 第 一 个 例子 ， 我 们 来 学 习 1.2.1.1 节 定义 的 
Counter 抽象 数据 类 型 的 实现 。 它 的 完整 实现 ( 带 有 实例 变 private final String nane; 
注释 ) 如 图 1.2.5 所 示 , 在 对 它 的 各 个 部 分 的 讨论 中 ，。 量 的 声明 << private int count; 
我 们 还 将 该 图 作为 参考 。 本 书后 面 开发 的 每 个 抽象 数 
据 类 型 的 实现 都 会 含有 和 这 个 简单 例子 相同 的 元 素 。 抽象 数 据 类 型 中 的 实例 变量 是 私有 的 


public class Counter 
9 ee 
- - - 类 名 
vate final String name;| 
实例 变量 一 一 |p" 


private int count; 














构造 函数 一 |Public Counter(String id) 
{ name = id; } 











public void increment() 
{ count++; } 








实例 方法 public int tallyO) 
{ return count; } 


实例 变量 名 
public String toStringO a 


















































{ return count + " " +name; } 
测试 用 例 一 一 =|public static void main(String[] args) 
{ 
创建 并 初 一 一 Counter heads = new Counter("heads"); 
始 化 对 象 Counter tails = new |Counter("tai1s")j 
他 发 构 六 
heads. increment (); 过 移入 
heads .incrementO; 2 
tails.increment(); 自动 调用 toString() 方 法 
对 象 名 
Std0ut.printlnCheads + " " + tails); 
StdOut.printin(heads. tally() + [tails.tallyO]); 
} 入 调用 
} 方法 
图 1.2.5 详解 数据 类 型 的 定义 类 
1.2.3.1 实例 变量 


要 定义 数据 类 型 的 值 ( 即 每 个 对 象 的 状态 ) ， 我 们 需要 声明 实例 变量 ， 声 明 的 方式 和 局 部 变量 差 
不 多 。 实 例 变量 和 你 所 熟悉 的 静态 方法 或 是 某 个 代码 段 中 的 局 部 变量 最 关键 的 区 别 在 于 : 每 一 时 刻 每 
个 局 部 变量 只 会 有 一 个 值 , 但 每 个 实例 变量 则 对 应 着 无 教 值 (数据 类 型 的 每 个 实例 对 象 都 会 有 一 个 ) 。 
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这 并 不 会 产生 二 义 性 ， 因 为 我 们 在 访问 实例 变量 时 都 需要 通过 一 个 对 象 一 一 我 们 访问 的 是 这 个 对 象 的 
值 。 同 样 ， 每 个 实例 变量 的 声明 都 需要 一 个 可 见 性 修饰 符 。 在 抽象 数据 类 型 的 实现 中 ， 我 们 会 使 用 
private， 也 就 是 使 用 Java 语言 的 机 制 来 保证 向 使 用 者 隐藏 抽象 数据 类 型 中 的 数据 表示 ， 如 下 面 的 示 
例 所 示 。 如 果 该 值 在 初始 化 之 后 不 应 该 再 被 改变 ， 我 们 也 会 使 用 fina1。Counter 类 型 含有 两 个 实例 
变量 ,一 个 String 类 型 的 值 name 和 一 个 int 类 型 的 值 count。 如 果 我 们 使 用 pub1ic 修饰 这 些 实例 
变量 ( 在 Java 中 是 允许 的 ) ,那么 根据 定义 ,这 种 数据 类 型 就 不 再 是 抽象 的 了 ,因此 我 们 不 会 这 么 做 。 
1.2.3.2 ”构造 函数 

每 个 Java 类 都 至 少 含有 一 个 构造 函数 以 创建 一 个 对 象 的 标识 。 构 造 函数 类 似 于 一 个 静态 方法 ， 但 
它 能 够 直接 访问 实例 变量 且 没 有 返回 值 。 一 般 来 说 ,构造 函数 的 作用 是 初始 化 实例 变量 。 每 个 构造 函 到 
数 都 将 创建 一 个 对 象 并 向 调用 者 返回 一 个 该 对 象 的 引用 。 构 造 函数 的 名 称 总 是 和 类 名 相同 。 我 们 可 以 ”| 85 
和 重 载 方法 一 样 重 载 这 个 名 称 并 定义 签名 不 同 的 多 
个 构造 函数 。 如 果 没 有 定义 构造 函数 ， 类 将 会 隐 式 
定义 一 个 默认 情况 下 不 接受 任何 参数 的 构造 函数 并 
将 所 有 实例 变量 初始 化 为 默认 值 。 原 始 数字 类 型 的 
实例 变量 默认 值 为 0， 布 尔 类 型 变量 为 false， 引 可 见 性 没有 指定 返 构造 函数 名 称 参数 
用 类 型 变量 为 nu11。 我 们 可 以 在 声明 语句 中 初始 by 的 网 吕 人 一 本 


化 这 些 实例 变 量 并 改变 这 此 默认 值 。 当 用 例 使 用 关 em 


























键 字 new 时 ，Java 会 自动 触发 一 个 构造 丽 数 。 重 载 th 
构造 丽 数 一 般 用 于 将 实例 变量 由 默认 值 初始 化 为 用 1 Na 
例 提供 的 值 。 例 如 ，Counter 类 型 有 个 接受 一 个 参 初始 化 实例 变量 的 代码 

数 的 构造 丽 数 ， 它 将 实例 变量 name 初始 化 为 由 参 。。“"， 会 被 初始 化 为 默认 全 0) 

数 给 定 的 值 (实例 变量 count 仍 将 被 初始 化 为 默认 

值 0) 。 构 造 函数 解析 如 图 1.2.6 所 示 。 图 1.2.6 详解 构造 函数 


1.2.3.3 ”实例 方法 
实现 数据 类 型 的 实例 方法 ( 即 每 个 对 象 的 行为 ) 的 代码 和 1.1 节 中 实现 静态 方法 (函数 ) 的 代码 
完全 相同 。 每 个 实例 方法 都 有 一 个 返回 值 类 型 、 一 个 签名 ( 它 指定 了 方法 名 、 返 回 值 类 型 和 所 有 参数 
变量 的 名 称 ) 和 一 个 主体 ( 它 由 一 系列 语句 组 成 ， 包 括 一 个 返回 语句 来 将 一 个 返回 类 型 的 值 传递 给 调 
用 者 ) 。 当 调用 者 触发 了 一 个 方法 时 ， 方 法 的 参数 ( 如 果 有 ) 均 会 被 初始 化 为 调用 者 所 提供 的 值 ， 
方法 的 语句 会 被 执行 ， 直 到 得 到 一 个 返回 值 并 且 将 该 值 返回 给 调用 者 。 它 的 效果 就 好 像 调用 者 代码 中 
的 函数 调用 被 转换 为 了 这 个 返回 值 。 实 例 方法 的 所 有 这 些 行为 都 和 静态 方法 相同 ， 只 有 一 点 关键 的 不 
同 :它们 可 以 访问 并 操作 实例 变量 。 如 何 指定 我 们 希望 使 用 的 对 象 的 实例 变量 ? 只 要 稍 加 思考 ， 就 能 
够 得 到 合理 的 答案 :在 一 个 实例 方法 中 对 变量 的 引用 指 的 是 该 方法 的 变量 中 的 值 。 当 我 们 调用 heads. 
increment() 时 ，incrementQ 方法 中 的 代码 访问 的 是 heads 中 的 实例 变量 。 换 句 话 说 ， 面 向 对 象 编 、[86 
程 为 Java 程序 增加 了 另 一 种 使 用 变量 的 重要 方式 。 可 丰 性 返回 
口 通过 触发 一 个 实例 方法 来 操作 该 对 象 的 值 。 信 全 符 信 六 型 方 名 
这 与 调用 静态 方法 仅仅 是 语法 上 的 区 别 ( 请 [Eel | 
见 答疑 ) ， 但 在 许多 情况 下 它 颠 覆 了 现代 程序 员 。 二 中 +} 
对 程序 开发 的 思维 方式 。 你 会 看 到 ， 这 种 方式 与 \ 
算法 和 数据 结构 的 研究 非常 契合 。 实 例 方法 解析 人 
如 图 1.2.7 所 示 。 图 1.2.7 详解 实例 方法 
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1.2.3.4 ”作用 域 
总 的 来 说 ,我 们 在 实现 实例 方法 的 Java 代码 中 使 用 了 三 种 变量 
口 参数 变量 ; 
口 局 部 变量 ; public class Example 一 实例 变量 
部 变量 ; ? 
口 实例 变量 。 private int var; 
在 静态 方法 中 前 两 者 的 用 法 没有 变化 : 和 
方法 的 签名 定义 了 参数 变量 ， 在 方法 被 调用 让 
:会 了 
时 参数 方法 会 被 初始 化 为 调用 者 提供 的 值 ; 局 和 县 一 int var 请 册 关 最 局 


局 部 变量 的 声明 和 初始 化 都 在 方法 的 主体 中 。 war 实例 变量 
参数 变量 的 作用 域 是 整个 方法 局 部 变量 的 this.var。 
作用 域 是 当前 代码 段 中 它 的 定义 之 后 的 所 有 和 

语句 。 实 例 变量 则 完全 不 同 ( 如 右 侧 示 例 所 

示 ) : 它们 为 该 类 的 对 象 保存 了 数据 类 型 的 ee Mold pe hogar 


调用 实例 变量 


值 ， 它 们 的 作用 域 是 整个 类 ( 如 果 出 现 二 义 ar 
性 ， 可 以 使 用 this 前 级 来 区 别 实例 变量 ) 。 调用 实例 变量 
理解 实例 方法 中 这 三 种 变量 的 区 别 是 理解 面 } 

向 对 象 编程 的 关键 。 实例 方法 中 的 实例 变量 和 局 部 变量 的 作用 范围 


1.2.3.5 API、 用 例 与 实现 
这 些 都 是 你 要 在 Java 中 构造 并 使 用 抽象 数据 类 型 所 需要 理解 的 基本 组 件 。 我 们 将 要 学 习 的 每 
个 抽象 数据 类 型 的 实现 都 会 是 一 个 含有 若干 私 有 实例 变量 、 构 造 函数 、 实 例 方法 和 一 个 测试 用 例 
的 Java 类 。 要 完全 理解 一 个 数据 类 型 ， 我 们 需要 它 的 API、 典 型 的 用 例 和 它 的 实现 。Counter 类 型 
的 总 结 请 见 表 1.2.11。 为 了 强调 用 例 和 实现 的 分 离 ， 我 们 一 般 会 将 用 例 独 立成 为 含有 一 个 静态 方法 
main() 的 类 ， 并 将 数据 类 型 定义 中 的 main() 方法 预 留 为 一 个 用 于 开发 和 最 小 单元 测试 的 测试 用 例 
(至少 调用 每 个 实例 方法 一 次 ) 。 我 们 开发 的 每 种 数据 类 型 都 会 遵循 相同 的 步 又。 我们 思考 的 不 是 
应 该 采取 什么 行动 来 达成 某 个 计算 性 的 目的 ( 如 同 我 们 第 一 次 学 习 编 程 时 那样 ) ， 而 是 用 例 的 需求 。 
我 们 会 按照 下 面 三 步 走 的 方式 用 抽象 数据 类 型 满足 它们 。 
口 定义 一 份 API: API 的 作用 是 将 使 用 和 实现 分 离 ， 以 实现 模块 化 编程 。 我 们 制定 一 份 API 的 目 
标 有 二 : 第 一 ， 我 们 希望 用 例 的 代码 清晰 而 正确 ， 事 实 上 ， 在 最 终 确定 API 之 前 就 编写 一 些 
用 例 代码 来 确保 所 设计 的 数据 类 型 操作 正 是 用 例 所 需要 的 是 很 好 的 主意 ; 第 二 ， 我 们 希望 能 
够 实现 这 些 操作 ， 定 义 一 些 无 法 实现 的 操作 是 没有 意义 的 。 
口 用 一 个 Java 类 实现 API 的 定义 : 首先 我 们 选择 适当 的 实例 变量 ， 然 后 再 编写 构造 函数 和 实 
例 方法 。 
口 实现 多 个 测试 用 例 来 验证 前 两 步 做 出 的 设计 决定 。 
表 1.2.11 一 个 简单 计数 器 的 抽象 数据 类 型 
API public class Counter 





Counter(String id) 创建 一 个 名 为 id 的 计数 器 
void increment() 将 计数 器 的 值 加 1 
int tallyO 计数 器 的 值 


String toStringO) 对 象 的 字符 串 表示 
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( 续 ) 





典型 的 用 例 
public class Flips 


public static void main(String[] args) 


int T = Integer.parseInt(args[0]); 
Counter heads = new Counter("heads"); 
Counter tails = new Counter("tails"); 
for (int t = 0; t < T; t++) 

if (StdRandom.bernou11i(0.5)) 

heads.. increment(); 

else tails.increment(); 
StdOut .printin(heads); 
StdOut.print1n(tails); 
int d = heads.tally() - tails.tallyO; 
Stdout.println("delta: " + Math.abs(d)); 


数据 类 型 的 实现 使 用 方法 


public class Counter % java Flips 1000000 
{ 500172 heads 
private final String name; 499828 tails 
private int count; delta: 344 
public Counter(String id) 
{ name = id; } 
public void increment() 
{ count++; } 
public int taliyO) 
{ return count; } 
public String toStringO) 
{ return count + " ”+ name; } 








用 例 一 般 需 要 什么 操作 ? 数据 类 型 的 值 应 该 是 什么 才能 最 好 地 支持 这 些 操作 ?这 些 基 本 的 判断 [8 
是 我 们 开发 的 每 种 实现 的 核心 内 容 。 89 


1.2.4 更 多 抽象 数据 类 型 的 实现 


和 任何 编程 概念 一 样 ， 理 解 抽象 数据 类 型 的 威力 和 用 法 的 最 好 办 法 就 是 仔细 研究 更 多 的 例子 和 
实现 。 本 书 中 大 量 代码 是 通过 抽象 数据 类 型 实现 的 ， 因 此 你 的 机 会 很 多 ， 但 是 一 些 更 简单 的 例子 能 
够 帮助 我 们 为 研究 抽象 数据 类 型 打 好 基础 。 
1.2.4.1 日 期 

表 1.2.12 是 我 们 在 表 1.2.6 中 定义 的 Date 抽象 数据 类 型 的 两 种 实现 。 简 单 起 见 ， 我 们 省 
略 了 解析 字符 串 的 构造 函数 ( 请 见 练习 1.2.19) 和 继承 的 方法 equals() ( 请 见 1.2.5.8 节 ) 、 
compareTo() ( 请 见 2.1.1.4 节 ) 和 hashCode() (请 见 练习 3.4.22) 。 表 1.2.12 中 左 侧 的 简单 实现 
将 日 、 月 和 年 设 为 实例 变量 ， 这 样 实例 方法 就 可 以 直接 返回 适当 的 值 ， 右 侧 的 实现 更 加 节省 空间 ， 
仅 使 用 了 一 个 int 变量 来 表示 一 个 日 期 。 它 将 d 日 、m 月 和 y 年 的 一 个 日 期 表示 为 一 个 混合 进 制 的 
整数 512y+32m+d。 用 例 分 辩 这 两 种 实现 的 区 别 的 一 种 方法 可 能 是 打破 我 们 对 日 期 的 隐 式 假设 : 第 
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二 种 实现 的 正确 性 基于 日 的 值 在 0 到 31 之 间 , 月 的 值 在 0 到 15 之 间 , 年 的 值 为 正 (在 实际 应 用 中 ， 
两 种 实现 都 应 该 检查 月 份 的 值 是 否 在 1 到 12 之 间 ， 日 的 值 是 否 在 1 到 31 之 间 ， 以 及 例如 2009 年 6 
月 31 日 和 2 月 29 日 这 样 的 非法 日 期 , 尽管 这 么 做 要 费 些 工夫 ) 。 这 个 例子 的 主要 意思 是 说 明 我 们 
在 API 中 极 少 完整 地 指定 对 实现 的 要 求 ( 一 般 来 说 我 们 都 会 尽力 而 为 ， 这 里 还 可 以 做 得 更 好 ) 。 用 
例 要 分 辨 出 这 两 种 实现 的 区 别 的 另 一 种 方法 是 性 能 : 右 侧 的 实现 中 保存 数据 类 型 的 值 所 需 的 空间 较 
少 ， 代 价 是 在 向 用 例 按照 约定 的 格式 提供 这 些 值 时 花费 的 时 间 更 多 ( 需要 进行 一 两 次 算数 运算 ) 。 
这 种 交换 是 很 常见 的 某 些 用 例 可 能 偏爱 其 中 一 种 实现 ， 而 另 一 些 用 例 可 能 更 喜欢 另 一 种 ， 因 此 我 
们 两 者 都 要 满足 。 事 实 上 ， 本 书 中 反复 出 现 的 一 个 主题 就 是 我 们 需要 理解 各 种 实现 对 空间 和 时 间 的 
需求 以 及 它们 对 各 种 用 例 的 适用 性 。 在 实现 中 使 用 数据 抽象 的 一 个 关键 优势 是 我 们 可 以 将 一 种 实现 
替换 为 另 一 种 而 无 需 改 变 用例 的 任何 代码 。 








表 1.2.12 一 种 封装 日 期 的 抽象 数据 类 型 以 及 它 的 两 种 实现 
API public class Date 








DateCint month, int day, int year) 创建 一 个 日 期 

int dayO 日 

int month() 月 

int yearO 年 

String toStringO 对 象 的 字符 串 表 示 
测试 用 例 使 用 方法 

public static void main(String[] args) % java Date 12 31 1999 
{ 12/31/1999 


int m = Integer.parseInt(args[0]); 
int d = Integer.parseInt(args[1]); 
int y = Integer.parseInt(args[2]); 
Date date = new Date(m, d, y); 
StdOut.printin(date); 


用 
数据 类 型 的 实现 数据 类 型 的 另 一 种 实现 

public class Date public class Date 

{ { 
private final int month; private final int value; 
private final int day; public DateCint m, int d, int y) 
private final int year; { value = y*512 + ms32 + d; } 
public DateCint m, int d, int y) public int month() 
{ month = m; day = di year = Yi } { return (value / 32) % 16; } 
public int month() public int day() 
{ return month; } { return value % 32; } 
public int dayO public int year() 
{ return day; } { return value / 512; } 
public int yearO 
{ return year; } public String toString() 
public String toString() { return month() + "/" + dayO) 
{ return monthO) + "/" + dayO) + "/" + yearO); } 

} + "/" + yearO; } 各 
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1.2.4.2 维护 多 个 实现 
同一 份 API 的 多 个 实现 可 能 会 产生 维护 和 命名 问题 。 在 某 些 情况 下 ， 我 们 可 能 只 是 想 将 较 老 的 实 
现 替 换 为 改进 的 实现 。 而 在 另 一 些 情况 下 ， 我 们 可 能 需要 维护 两 种 实现 ， 一 种 适用 于 某 些 用 例 ， 另 一 
种 适用 于 另 一 此 用例。 实际 上 ， 本 书 的 一 个 主要 目标 就 是 深入 讨论 若干 种 基本 抽象 数据 结构 的 实现 并 ”| 90 
衡量 它们 的 性 能 的 不 同 。 在 本 书 中 ， 我们 经 常会 比较 同一 份 API 的 两 种 不 同 实现 在 同一 个 用 例 中 的 性 ”|91 
能 表现 。 为 此 ， 我 们 通常 采用 一 种 非 正式 的 命名 约定 。 
口 通过 前 级 的 描述 性 修饰 符 区 别 同一 份 API 的 不 同 实现 。 例 如 ， 我 们 可 以 将 表 1.2.12 中 的 
Date 实现 命名 为 BasicDate 和 Sma11Date， 我 们 可 能 还 希望 实现 一 种 能 够 验证 日 期 是 否 合 
法 的 SmartDate。 
口 维护 一 个 没有 前 级 的 参考 实现 ， 它 应 该 适合 于 大 多 数 用 例 的 需求 。 在 这 里 ， 大 多 数 用 例 应 该 
直接 会 使 用 Date。 
在 一 个 庞大 的 系统 中 ， 这 种 解决 方案 并 不 理想 ， 因 为 它 可 能 会 需要 修改 用 例 的 代码 。 例 如 ， 如 
果 需 要 开发 一 个 新 的 实现 Extrasma11Date， 那 么 我 们 只 能 修改 用 例 的 代码 或 是 让 它 成 为 所 有 用 例 
的 参考 实现 。Java 有 许多 高 级 语言 特性 来 保证 在 无 需 修改 用 例 代码 的 情况 下 维护 多 个 实现 ， 但 我 们 
很 少 会 使 用 它们 ， 因 为 即使 Java 专家 使 用 起 它们 来 也 十 分 困难 ( 有 时 甚至 是 有 争议 的 ) ， 尤 其 是 同 
我 们 极为 需要 的 其 他 高 级 语言 特性 〈 泛 型 和 迭代 器 ) 一 起 使 用 时 。 这 些 问题 很 重要 ( 例如 ， 忽 略 它 
们 会 导致 千 禧 年 著名 的 Y2K 问题 ， 因 为 许多 程序 使 用 的 都 是 它们 自己 对 日 期 的 抽象 实现 ， 且 并 没 
有 考虑 到 年 份 的 头 两 位 数字 ) ， 但 是 深究 它们 会 使 我 们 大 大 偏离 对 算法 的 研究 。 
1.2.4.3 ”累加 器 
表 1.2.13 中 的 累加 器 API 定义 了 一 种 能 够 为 用 例 计算 一 组 数据 的 实时 平均 值 的 抽象 数据 类 型 。 
例如 ， 本 书 中 经 常会 使 用 该 数据 类 型 来 处 理 实验 结果 ( 请 见 1.4 节 ) 。 它 的 实现 很 简单 : 它 维护 一 个 
int 类 型 的 实例 变量 来 记录 已 经 处 理 过 的 数据 值 的 数量 ， 以 及 一 个 double 类 型 的 实例 变量 来 记录 所 
有 数据 值 之 和 ， 将 和 除 以 数据 数量 即 可 得 到 平均 值 。 请 注意 该 实现 并 没有 保存 数据 的 值 一 一 它 可 以 用 
于 处 理 大 规模 的 数据 ( 甚至 是 在 一 个 无 法 全 部 保存 它们 的 设备 上 ) ， 而 一 个 大 型 系统 也 可 以 大 量 使 用 


表 1.2.13 一 种 能 够 累加 数据 的 抽象 数据 类 型 


API public class Accumulator 




















Accumulator() 创建 一 个 累加 器 
void addDatavalue(double val) 添加 一 个 新 的 数据 值 
double mean() 所 有 数据 值 的 平均 值 
String toString() 对 象 的 字符 串 表示 
典型 的 用 例 使 用 方法 
public class TestAccumulator % java TestAccumulator 1000 


Mean (1000 values): 0.51829 
% java TestAccumulator 1000000 
int T = Integer.parseInt(args[0]); Bor oe ea 


Accumulator a = new Accumulator(); % java TestAccumulator 1000000 


for (Cint t = 0; t < T; t++) 000000 ‘ 
a.addDataValueCStdRandom. random()); en a 


StdOut.print1n(Ga); 


public static void main(String[] args) 
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( 续 ) 





数据 类 型 的 实现 
public class Accumulator 


private double total; 
private int N; 
public void addDataValue(double val) 


Nt 
total += val; 


这 
public double mean() 
{ return total/N; } 
public String toString() 
{ return "Mean (" + N +" values): " 
+ String.format("%7.5f", mean()); } 





累加 器 。 这 种 性 能 特点 很 容易 被 忽视 ， 所 以 也 许 应 该 在 API 中 注 明 ， 因 为 一 种 存储 所 有 数据 值 的 实现 
可 能 会 使 调用 它 的 应 用 程序 用 光 所 有 内 存 。 
1.2.4.4 可视化 的 累加 器 

表 1.2.14 所 示 的 可 视 化 累加 器 的 实现 继承 了 Accumulator 类 并 展示 了 一 种 实用 的 副作用 : 它 
用 StdDraw 画 出 了 所 有 数据 (灰色 ) 和 实时 的 平均 值 (红色 ) ， 见 图 1.2.8。 完 成 这 项 任务 最 简单 
的 办 法 是 添加 一 个 构造 函数 来 指定 需要 绘 出 的 点 数 和 它们 的 最 大 值 (用 于 调整 图 像 的 比例 ) 。 严 格 
说 来 ，VisualAccumulator 并 不 是 Accumulator 的 API 的 实现 ( 它 的 构造 函数 的 签名 不 同 且 产生 


使 用 方法 


左 起 第 N 个 红 点 的 高 度 为 最 
靠 左 的 N 个 灰 点 的 平均 高 度 





。 

人 灰 点 的 高 度 

即 数据 点 的 值 ”% java TestVisualAccumulator 2000 
Mean (2000 values): 0.509789 


1.2.8 “可 视 化 累加 器 图 像 ( 另 见 彩 插 ) 


. 
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了 一 种 不 同 的 副作用 ) 。 一 般 来 说 ， 我 们 会 仔细 而 完整 地 设计 API， 并 且 一 旦 定型 就 不 愿 再 对 它 做 
任何 改动 ， 因 为 这 有 可 能 会 涉及 修改 无 数 用 例 ( 和 实现 ) 的 代码 。 但 添加 一 个 构造 函数 来 取得 某 些 
功能 有 时 能 够 获得 通过 ， 因 为 它 对 用 例 的 影响 和 改变 类 名 所 产生 的 变化 相同 。 在 本 例 中 ， 如 果 已 经 
开发 了 一 个 使 用 Accumu1ator 的 用 例 并 大 量 调用 了 addDataValue() 和 mean() ， 只 需 改变 用 例 的 
一 行 代码 就 能 享受 到 VisualAccumulator 的 优势 。 


表 1.2.14 一 种 能 够 累加 数据 的 抽象 数据 类 型 (可 视 版 本 ， 另 见 彩 插 ) 
API public class VisualAccumulator 
VisualAccumulator(int trials, double max) 








void addDataValue(double val) 添加 一 个 新 的 数据 值 
double mean() 所 有 数据 的 平均 值 
String toStringO) 对 象 的 字符 串 表 示 

典型 的 用 例 


public class TestVisualAccumulator 
public static void main(String[] args) 


int T = Integer.parseInt(args[0]); 
VisualAccumulator a = new VisualAccumulator(T,1.0); 
for (int t = 0; t < Ti t++) 

a.addDataValue(StdRandom. random()); 
StdOut.print1n(a); 


} 
} 
数据 类 型 的 实现 public class VisualAccumulator 
private double total; 
private int N; 
public VisualAccumulatorCint trials, double max) 
{ 


StdDraw. setXscaie(0, trials); 
StdDraw. setYscale(0, max); 
StdDraw. setPenRadius( .005); 


了 
public void addDataValue(double val) 
{ 


Na+i 

total += val; 

StdDraw .setPenColor(StdDraw.DARK_CRAY); 
StdDraw.point(N，val); 

StdDraw .setPenColor(StdDraw.RED); 
StdDraw.point(N, total/N); 


pub]ic double mean() 
public String toString©O 
// 和 Accumulator 相同 
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1.2.5 ”数据 类 型 的 设计 

抽象 数据 类 型 是 一 种 向 用 例 隐藏 内 部 表示 的 数据 类 型 。 这 种 思想 强 有 力 地 影响 了 现代 编程 。 我 
们 遇 到 过 的 众多 例子 为 我 们 研究 抽象 数据 类 型 的 高 级 特性 和 它们 的 Java 实现 打下 了 基础 。 简单 看 来 ， 
下 面 的 许多 话题 和 算法 的 学 习 关系 不 大 ， 因 此 你 可 以 跳 过 本 节 ， 在 今后 实现 抽象 数据 类 型 中 遇 到 特 
定 问题 时 再 回 过 头 来 参考 它 。 我 们 的 目的 是 将 关于 设计 数据 类 型 的 重要 知识 集中 起 来 以 供 参 考 ， 并 
为 本 书 中 的 所 有 抽象 数据 类 型 的 实现 做 铺垫 。 
1.2.5.1 封装 

面向 对 象 编程 的 特征 之 一 就 是 使 用 数据 类 型 的 实现 封装 数据 ， 以 简化 实现 和 隔离 用 例 开 发 。 封 
装 实现 了 模块 化 编程 ， 它 允许 我 们 : 

口 独立 开发 用 例 和 实现 的 代码 ; 

口 切换 至 改进 的 实现 而 不 会 影响 用 例 的 代码 ; 

口 支持 尚未 编写 的 程序 ( 对 于 后 续 用 例 ，API 能 够 起 到 指南 的 作用 ) 。 

封装 同时 也 隔离 了 数据 类 型 的 操作 ， 这 使 我 们 可 以 ; 

口 限制 潜在 的 错误 ; 

口 在 实现 中 添加 一 致 性 检查 等 调试 工具 ; 

口 确保 用 例 代码 更 明晰 。 

一 个 封装 的 数据 类 型 可 以 被 任意 用 例 使 用 ， 因 此 它 扩展 了 Java 语言 。 我 们 所 提倡 的 编程 风格 是 
将 大 型 程序 分 解 为 能 够 独立 开发 和 调试 的 小 型 模块 。 这 种 方式 将 修改 代码 的 影响 限制 在 局 部 区 域 ， 
改进 了 我 们 的 软件 质量 。 它 也 促进 了 代码 复 用 ， 因 为 我 们 可 以 用 某 种 数据 类 型 的 新 实现 代替 老 的 实 
现 来 改进 它 的 性 能 、 准 确 度 或 是 内 存 消耗 。 同 样 的 思想 也 适用 于 许多 其 他 领域 。 我 们 在 使 用 系统 库 
时 常常 从 封装 中 受益 。Java 系统 的 新 实现 往往 更 新 了 多 种 数据 类 型 或 静态 方法 库 的 实现 ， 但 它们 的 
API 并 没有 变化 。 在 算法 和 数据 结构 的 学 习 中 ,我 们 总 是 希望 开发 出 更 好 的 算法 ， 因 为 只 需 用 抽象 
数据 类 型 的 改进 实现 替换 老 的 实现 即 可 在 不 改变 任何 用 例 代 码 的 情况 下 改进 所 有 用 例 的 性 能 。 模 块 
化 编程 成 功 的 关键 在 于 保持 模块 之 间 的 独立 性 。 我 们 坚持 将 API 作为 用 例 和 实现 之 间 唯 一 的 依赖 点 
来 做 到 这 一 点 。 并 不 需要 知道 一 个 数据 类 型 是 如 何 实现 的 才能 使 用 它 ， 实 现 数 据 类 型 时 也 应 该 假设 
使 用 者 除了 API 什么 也 不 知道 。 封 装 是 获得 所 有 这 些 优势 的 关键 。 
1.2.5.2 设计 API 

构建 现代 软件 最 重要 也 最 有 挑战 的 一 项 任务 就 是 设计 API。 它 需要 经 验 、 思 考 和 反复 的 修改 ， 
但 设计 一 份 优秀 的 API 所 付出 的 所 有 时 间 都 能 从 调试 和 代码 复 用 所 节省 的 时 间 中 获得 回报 。 为 一 个 
小 程序 给 出 一 份 API 似乎 有 些 多 余 ， 但 你 应 该 按照 能 够 复 用 的 方式 编写 每 个 程序 。 理 想 情况 下 ， 一 
份 API 应 该 能 够 清楚 地 说 明 所 有 可 能 的 输入 和 副作用 ， 然 后 我 们 应 该 先 写 出 检查 实现 是 否 与 API 相 
符 的 程序 。 但 不 幸 的 是 ， 计 算 机 科学 理论 中 一 个 叫做 说 明 书 问题 ( specification problem ) 的 基础 结 
论说 明 这 个 目标 是 不 可 能 实现 的 。 简 单 地 说 ， 这 样 一 份 说 明 书 应 该 用 一 种 类 似 于 编程 语言 的 形式 语 
言 编写 。 而 从 数学 上 可 以 证 明 ， 判定 这 样 两 个 程序 进行 的 计算 是 否 相同 是 不 可 能 的 。 因 此 ， 我 们 的 
API 将 是 与 抽象 数据 类 型 相关 联 的 值 以 及 一 系列 构造 函数 和 实例 方法 的 目的 和 副作用 的 自然 语言 
述 。 为 了 验证 我 们 的 设计 ， 我 们 会 在 API 附近 的 正文 中 给 出 一 些 用 例 代码 。 但是， 这 些 宏观 概述 之 
中 也 隐藏 着 每 一 份 API 设计 都 可 能 落 入 的 无 数 陷阱 。 

口 API 可 能 会 难以 实现 : 实现 的 开发 非常 困难 ， 甚 至 不 可 能 。 
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口 API 可 能 会 难以 使 用 : 用 例 代码 甚至 比 没有 API 时 更 复杂 。 

口 API 的 范围 可 能 太 窄 : 缺少 用 例 所 需 的 方法 。 

口 API 的 范围 可 能 太 宽 : 包含 许多 不 会 被 任何 用 例 调用 的 方法 。 这 种 缺陷 可 能 是 最 常见 的 ， 并 且 

也 是 最 难以 避免 的 。API 的 大 小 一 般 会 随 着 时 间 而 增长 ， 因 为 向 已 有 的 API 中 添加 新 方法 很 
简单 ， 但 在 不 破坏 已 有 用 例 程序 的 前 提 下 从 中 删除 方法 却 很 困难 。 

口 API 可 能 会 太 粗 略 ; 无 法 提供 有 效 的 抽象 。 

口 API 可 能 会 太 详细 : 抽象 过 于 细致 或 是 发 散 而 无 法 使 用 。 

口 API 可 能 会 过 于 依赖 某 种 特定 的 数据 表示 : 用 例 代码 可 能 会 因此 无 法 从 数据 表示 的 细节 中 解 

脱出 来 。 要 避免 这 种 缺陷 也 是 很 困难 的 ， 因 为 数据 表示 显然 是 抽象 数据 类 型 实现 的 核心 。 

这 些 考虑 有 时 又 被 总 结 为 另 一 句 格言 : 只 为 用 例 提供 它们 所 需要 的 ， 仅 此 而 已 。 
1.2.5.3 ”算法 与 抽象 数据 类 型 

数据 抽象 天 生 适 合算 法 研究 ， 因 为 它 能 够 为 我 们 提供 一 个 框架 ， 在 其 中 能 够 准确 地 说 明 一 个 算 
法 的 目的 以 及 其 他 程序 应 该 如 何 使 用 该 算法 。 在 本 书 中 ， 算 法 一 般 都 是 某 个 抽象 数据 类 型 的 一 个 实 
例 方法 的 实现 。 例 如 ， 本 章 开头 的 白 名 单 例子 就 很 自然 地 被 实现 为 一 个 抽象 数据 类 型 的 用 例 。 它 进 
行 了 以 下 操作 : 

口 由 一 组 给 定 的 值 构造 了 一 个 SET ( 集合 ) 对 象 ; 

口 判定 一 个 给 定 的 值 是 否 存在 于 该 集合 中 。 

这 些 操作 封装 在 StaticSETofInts 抽象 数据 类 型 中 ， 和 Whitelist 用 例 一 起 显示 在 表 1.2.15 中 。 
StaticSETofInts 是 更 一 般 也 更 有 用 的 符号 表 抽 象 数据 类 型 的 一 种 特殊 情况 ， 符 号 表 抽象 数据 类 
型 将 是 第 3 章 的 重点 。 在 我 们 研究 过 的 所 有 算法 中 ,二 分 查找 是 较为 适合 用 于 实现 这 些 抽象 数据 类 
型 的 一 种 。 和 1.1.10 节 中 的 BinarySearch 实现 比较 起 来 ， 这 里 的 实现 所 产生 的 用 例 代 码 更 加 清晰 和 
高 效 。 例 如 ，StaticSETofInts 强制 要 求 数组 在 rank() 方法 被 调用 之 前 排序 。 有 了 抽象 数据 类 型 ， 
我 们 可 以 将 抽象 数据 类 型 的 调用 和 实现 区 分 开 来 ， 并 确保 任意 遵守 API 的 用 例 程序 都 能 受益 于 二 分 
查找 算法 ( 使 用 BinarySearch 的 程序 在 调用 rank() 之 前 必须 能 够 将 数组 排序 ) 。 白 名 单 应 用 是 众 
多 二 分 查找 算法 的 用 例 之 一 。 

每 个 Java 程序 都 是 一 组 静态 方法 和 (或 ) 一 种 应 用 
数据 类 型 的 实现 的 集合 。 在 本 书 中 我 们 主要 关注 的 是 % java Whitelist largeW.txt < 
抽象 数据 类 型 的 实现 中 的 操作 和 向 用 例 隐藏 其 中 的 数 ar 


据 表示 ,例如 StaticSETofInts。 正 如 这 个 例子 所 示 ， i 
数据 抽象 使 我 们 能 够 : 2 
口 准确 定义 算法 能 为 用 例 提 供 什么 ; 140925 
口 隔离 算法 的 实现 和 用 例 的 代码 ; Ne 


口 实现 多 层 抽象 ， 用 已 知 算法 实现 其 他 算法 。 


表 1.2.15 将 二 分 查找 重 写 为 一 段 面向 对 象 的 程序 用 于 在 整数 集合 中 进行 查找 的 一 种 抽象 数据 类 型 ) 


API public class StaticSETofInts 
StaticSETofInts(int[] a) 根据 a[] 中 的 所 有 值 创 建 一 个 集合 
boolean contains(int key) key 是 否 存在 于 集合 中 
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( 续 ) 





典型 的 用 例 
public class Whitelist 


public static void main(String[] args) 


int[] w = In.readInts(args[0]); 
StaticSETofInts set = new StaticSETofInts(w); 
while (!StdIn.isEmpty()) 
{ // 读 取 键 ， 如 果 不 在 白 名单 中 则 打印 它 
int key = StdIn.readInt(); 
if (!set.contains(key)) 
StdOut .printin(key); 





数据 类 型 的 实现 2 
import java.util.Arrays; 
public class StaticSETofInts 
{ 
private int[] a; 
public StaticSETofInts(int[] keys) 
{ 


a = new int[keys.1length]; 

for (int i = 0; i < keys.length; i++) 
a[i] = keys[i]; // 保护 性 复制 

Arrays.sort(a); 


了 
public boolean contains(int key) 
{ return rank(key) != -1; 
private int rank(Cint key) 
{ // 二 分 查找 
int lo = 0; 
int hi = a.length - 1; 
while (1o <= hi) 
{ // 键 要 么 存在 于 a[10. .hi] 中 ,要 么 不 存在 
int mid = lo + (hi - 10) / 2; 
if (key < a[mid]) hi = mid - 1; 
else if (key > a[mid]) 1o = mid + 1; 
else return mid; 
} 


return -1; 





无 论 是 使 用 自然 语言 还 是 伪 代 码 描述 算法 ， 这 些 都 是 我 们 所 希望 拥有 的 性 质 。 使 用 Java 的 类 
机 制 来 支持 数据 的 抽象 将 使 我 们 收获 良 多 : 我 们 编写 的 代码 将 能 够 测试 算法 并 比较 各 种 用 例 程序 的 
1.2.5.4 ”接口 继承 

Java 语言 为 定义 对 象 之 间 的 关系 提供 了 支持 ， 称 为 接口 。 程 序 员 广泛 使 用 这 些 机 制 ， 如 果 上 过 
软件 工程 的 课程 那么 你 可 以 详细 地 研究 一 下 它们 。 我 们 学 习 的 第 一 种 继承 机 制 叫做 子 类 型 。 它 允许 
我 们 通过 指定 一 个 含有 一 组 公共 方法 的 接口 为 两 个 本 来 并 没有 关系 的 类 建立 一 种 联系 ， 这 两 个 类 都 
必须 实现 这 些 方法 。 例 如 ， 如 果 不 使 用 我 们 的 非 正式 API， 也 可 以 为 Date 声明 一 个 接口 : 
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public interface Datable 


int month(); 

int dayO; 

int yearO; 
} 


并 在 我 们 的 实现 中 引用 该 接口 : 


public class Date implements Datable 


// 实现 代码 ( 和 以 前 一 样 ) 


这 样 ，Java 编译 器 就 会 检查 该 实现 是 否 和 接口 相符 。 为 任意 实现 了 month() 、day() 和 
year() 的 类 添加 implements Datable 保证 了 所 有 用 例 都 能 用 该 类 的 对 象 调用 这 些 方法 。 这 种 方 
式 称 为 接口 继承 一 一 实现 类 继承 的 是 接口 。 接 口 继承 使 得 我 们 的 程序 能 够 通过 调用 接口 中 的 方法 操 
作 实 现 该 接口 的 任意 类 型 的 对 象 ( 甚至 是 还 未 被 创建 的 类 型 ) 。 我 们 可 以 在 更 多 非 正 式 的 API 中 使 
用 接口 继承 ， 但 为 了 避免 代码 依赖 于 和 理解 算法 无 关 的 高 级 语言 特性 以 及 额外 的 接口 文件 ， 我 们 并 
没有 这 么 做 。 在 某 些 情况 下 Java 的 习惯 用 法 鼓励 我 们 使 用 接口 : 我 们 用 它们 进行 比较 和 选 代 ， 如 表 
1.2.16 所 示 。 我 们 会 在 接触 那些 概念 时 再 详细 研究 它们 。 


表 1.2.16 本 书 中 所 用 到 的 Java 接口 














接 口 方 法 章节 
| java. lang. Comparable compareTo() 21 
java.uti1.Comparator compare() 25 
java.lang.Iterable iterator() 13 
代 hasNextO) 
法 代 java.uti1.Iterator nextO) 43 
remove() 
1.2.5.5 ”实现 继承 


Java 还 支持 另 一 种 继承 机 制 ， 被 称 为 子 类 。 这 种 非常 强大 的 技术 使 程序 员 不 需要 重 写 整个 类 就 
能 改变 它 的 行为 或 者 为 它 添加 新 的 功能 。 它 的 主要 思想 是 定义 一 个 新 类 ( 子 类 ， 或 称 为 派生 类 ) 来 
继承 另 一 个 类 ( 父 类 , 或 称 为 基 类 ) 的 所 有 实例 方法 和 实例 变量 。 子 类 包含 的 方法 比 父 类 更 多 。 另 外 ， 
子 类 可 以 重新 定义 或 者 重 写 父 类 的 方法 。 子 类 继承 被 系统 程序 员 广泛 用 于 编写 所 谓 可 扩展 的 库 一 一 
任何 一 个 程序 员 (包括 你 ) 都 能 为 另 一 个 程序 员 (或 者 也 许 是 一 个 系统 程序 员 团 队 ) 创建 的 库 添加 
方法 。 这 种 方法 能 够 有 效 地 重用 潜在 的 十 分 庞大 的 库 中 的 代码 。 例 如 ， 这 种 方法 被 广泛 用 于 图 形 用 
户 界面 的 开发 ， 因 此 实现 用 户 所 需要 的 各 种 控件 (下拉 菜 单 ， 剪 切 一 粘贴 ， 文 件 访问 等 ) 的 大 量 代 
码 都 能 够 被 重用 。 子 类 继承 的 使 用 在 系统 程序 员 和 应 用 程序 员 之 间 是 有 争议 的 ( 它 和 接口 继承 之 间 
的 优 劣 还 没有 定论 ) 。 在 本 书 中 我 们 会 避免 使 用 它 ， 因 为 它 会 破坏 封装 。 但 这 种 机 制 是 Java 的 一 
部 分 ， 因 此 它 的 残余 是 无 法 避免 的 : 具体 来 说 ， 每 个 类 都 是 Java 的 0bject 类 的 子 类 。 这 种 结构 意 
味 着 每 个 类 都 含有 getC1ass() 、toString()、equals()、hashCode() ( 见 表 1.2.17 ) 和 另外 几 
个 我 们 不 会 在 本 书 中 用 到 的 方法 的 实现 。 实 际 上 ， 每 个 类 都 通过 子 类 继承 从 Object 类 中 继承 了 这 
些 方法 ， 因 此 任何 用 例 都 可 以 在 任意 对 象 中 调用 这 些 方法 。 我 们 通常 会 重 载 新 类 的 toString() 、 
equals() 和 hashCode() 方法 ， 因 为 Object 类 的 默认 实现 一 般 无 法 提供 所 需 的 行为 。 接 下 来 我 们 
将 讨论 toString() 和 equals()， 在 3.4 节 中 讨论 hashCode()。 
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表 1.2.17 本 书 中 所 使 用 的 由 0bject 类 继承 得 到 的 方法 





兰 - 和 束 作 用 章节 
Class getClassO) 该 对 象 的 类 是 什么 12 
String toStringO) 该 对 象 的 字符 串 表示 1.1 
boolean equals(Object that) 该 对 象 是 否 和 that 相等 12 
int hashCode() 该 对 象 的 散 列 值 3.4 
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1.2.5.6 ”字符 串 表 示 的 习惯 

按照 习惯 ， 每 个 Java 类 型 都 会 从 Object 继承 toStringQ 方法 ， 因 此 任何 用 例 都 能 够 调 
用 任意 对 象 的 toString() 方法 。 当 连接 运算 符 的 一 个 操作 数 是 字符 串 时 ，Java 会 自动 将 另 一 个 
操作 数 也 转换 为 字符 串 ， 这 个 约定 是 这 种 自动 转换 的 基础 。 如 果 一 个 对 象 的 数据 类 型 没有 实现 
toString() 方法 ， 那 么 转换 会 调用 0bejct 的 默认 实现 。 默 认 实现 一 般 都 没有 多 大 实用 价值 ， 因 
为 它 只 会 返回 一 个 含有 该 对 象 内 存 地 址 的 字符 串 。 因 此 我 们 通常 会 为 我 们 的 每 个 类 实现 并 重 写 默认 
的 toString() 方法 ， 如 下 面 代码 框 的 Date 类 中 加 粗 的 部 分 所 示 。 由 代码 可 以 看 到 ，toString() 
方法 的 实现 通常 很 简单 ， 只 需 隐 式 调用 (通过 + ) 每 个 实例 变量 的 toString() 方法 即 可 。 
1.2.5.7 封装 类 型 

Java 提供 了 一 些 内 置 的 引用 类 型 , 称 为 封装 类 型 。 每 种 原始 数据 类 型 都 有 一 个 对 应 的 封装 类 型 ; 
Boolean 、Byte、Character 、Double、Float 、Integer 、Long 和 Short 分 别 对 应 着 boolean 、 
byte、char、double、float 、int、1ong 和 short。 这 些 类 主要 由 类 似 于 parseInt() 这 样 的 
静态 方法 组 成 ， 但 它们 也 含有 继承 得 到 的 实例 方法 toString()、compareTo()、equals() 和 
hashCode()。 在 需要 的 时 候 Java 会 自动 将 原始 数据 类 型 转换 为 封装 类 型 ， 如 1.3.1.1 节 所 述 。 例 如 ， 
当 一 个 int 值 需要 和 一 个 String 连接 时 , 它 的 类 型 会 被 转换 为 Integer 并 触发 toString() 方法 。 
1.2.5.8 等 价 性 

两 个 对 象 相等 意味 着 什么 ? 如 果 我 们 用 相同 类 型 的 两 个 引用 变量 a 和 b 进行 等 价 性 测试 (a == 
b ) , 我 们 检测 的 是 它们 的 标识 是 否 相 同 , 即 引用 是 否 相同 。 一 般 用 例 希 望 能 够 检查 数据 类 型 的 值 ( 对 
象 的 状态 ) 是 否 相同 或 者 实现 某 种 针对 该 类 型 的 规则 。Java 为 我 们 开 了 个 头 ， 为 Integer、Double 
和 String 等 标准 数据 类 型 以 及 一 些 如 File 和 URL 的 复杂 数据 类 型 提供 了 实现 。 在 处 理 这 些 类 型 
的 数据 时 ， 可 以 直接 使 用 内 置 的 实现 。 例 如 ， 如 果 x 和 y 均 为 String 类 型 的 值 ， 那 么 当 且 仅 当 x 
和 yy 的 长 度 相同 且 每 个 位 置 的 字符 均 相同 时 x.equals(y) 的 返回 值 为 true。 当 我 们 在 定义 自己 的 
数据 类 型 时 ， 比 如 Date 或 Transaction， 需 要 重 载 equa1s() 方法 。Java 约定 equa1s() 必须 是 
一 种 等 价 性 关系 。 它 必须 具有 : 

口 自 反 性 ，x.equals(x) 为 true; 

口 对 称 性 ， 当 上 且 仅 当 y.equals(x) 为 true 时 ，x.equals(y) 返回 true; 

口 传递 性 ， 如 果 x.equals(y) 和 y.equals(z) 均 为 true，x.equals(z) 也 将 为 true。 

另外 ， 它 必须 接受 一 个 0bject 为 参数 并 满足 以 下 性 质 : 

口 一 致 性 ， 当 两 个 对 象 均 未 被 修改 时 ， 反 复 调用 x.equal1s(y) 总 是 会 返回 相同 的 值 ; 

口 非 室 性 ，x.equals (nu11) 总 是 返回 false。 

这 些 定义 都 是 自然 合理 的 ， 但 确保 这 些 性 质 成 立 并 遵守 Java 的 约定 ， 同 时 又 避免 在 实现 时 做 无 
用 功 却 并 不 容易 ， 如 Date 所 示 。 它 通过 以 下 步骤 做 到 了 这 一 点 。 
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口 如 果 该 对 象 的 引用 和 参数 对 象 的 引用 相同 ， 返 回 true。 这 项 测试 在 成 立时 能 够 免 去 其 他 所 
有 测试 工作 。 

口 如 果 参 数 为 空 (nu11 ) ， 根 据 约定 返回 false ( 还 可 以 避免 在 下 面 的 代码 中 使 用 空 引用 ) 。 

口 如 果 两 个 对 象 的 类 不 同 ， 返 回 false。 要 得 到 一 个 对 象 的 类 ， 可 以 使 用 getClass() 方法 。 
请 注意 我 们 会 使 用 == 来 判断 Class 类 型 的 对 象 是 否 相等 ， 因 为 同一 种 类 型 的 所 有 对 象 的 
getClass() 方法 一 定 能 够 返回 相同 的 引用 。 

口 将 参数 对 象 的 类 型 从 Object 转换 到 Date ( 因为 前 一 项 测试 已 经 通过 , 这 种 转换 必然 成 功 ) 。 

口 如 果 任意 实例 变量 的 值 不 相同 , 返回 false。 对 于 其 他 类 , 等 价 性 测试 方法 的 定义 可 能 不 同 。 
例如 ,我们 只 有 在 两 个 Counter 对 象 的 count 变量 相等 时 才 会 认为 它们 相等 。 


public class Date 

{ 
private final int monthy 
private final int day; 
private final int year; 


public pate(int m, int d, int y) 
{ month = mi day = di year = y; } 


public int month() 
{return month; } 


public int dayO 
{ return day; } 


public int year() 
{ return year; } 


public String toStringO 
{ return monthO + "/” + dayO + "/" + yearO; } 


public boolean equals(Object x) 
{ 
if (this == x) return true; 
if (x 一 nu11) return false; 
if (this.getClass() != x.getClass()) return false; 
Date that = (Date) x; 


if (this.day != that.day) return false; 
if (this.month != that.month) return false; 
if (this.year != that.year) return false; 
return true; 


在 数据 类 型 的 定义 中 重 写 toString() 和 equals 〇 方法 


你 可 以 使 用 上 面 的 实现 作为 实现 任意 数据 类 型 的 equalsQ 方法 的 模板 。 只 要 实现 一 次 
equal1s() 方法 ， 下 一 次 就 不 会 那么 困难 了 。 
1.2.5.9 ”内 存 管理 108 
我 们 可 以 为 一 个 引用 变量 赋予 一 个 新 的 值 ， 因 此 一 段 程序 可 能 会 产生 一 个 无 法 被 引用 的 对 象 。 
例如 ， 请 看 图 1.2.9 中 所 示 的 三 行 赋值 语句 。 在 第 三 行 赋值 语句 之 后 ， 不 仅 a 和 b 会 指向 同一 个 
Date 对 象 ( 1/1/2011 ) ， 而 且 不 存在 能 够 引用 初始 化 变量 b 的 那个 Date 对 象 的 引用 了 。 本 来 该 对 
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象 的 唯一 引用 就 是 变量 b， 但 是 该 引用 被 屿 值 语句 覆盖 。 Date 8 = new pate(12, 31, 1999); 
了 ,这样 的 对 象 被 称 为 孤儿 。 对 象 在 离开 作用 域 之 后 也 。 azeb? new a i 


会 变 成 孤儿 。Java 程序 经 常会 创建 大 量 对 象 ( 以 及 许多 


保存 原始 数据 类 型 值 的 变量 ) ， 但 在 某 个 时 刻 程序 只 会 
需要 它们 之 中 的 一 小 部 分 。 因 此 ， 编 程 语言 和 系统 需要 
某 种 机 制 来 在 必要 时 为 数据 类 型 的 值 分 配 内 存 ， 而 在 不 EE le 


< 对象 的 引用 
需要 时 释放 它们 的 内 存 ( 对 于 一 个 对 象 来 说 ， 有 时 是 在 


它 变 成 孤儿 之 后 ) 。 内 存 管理 对 于 原始 数据 类 型 更 容易 
因为 内 存 分 配 所 需要 的 所 有 信息 在 编译 阶段 就 能 够 获取 。 
Java (以 及 大 多 数 其 他 系统 ) 会 在 声明 变量 时 为 它们 预 留 次 儿 对 象 


内 存 空间 ， 并 会 在 它们 离开 作用 域 后 释放 这 些 空间 。 对。 655 FE 

象 的 内 存 管理 更 加 复杂 : 系统 会 在 创建 一 个 对 象 时 为 它 “656 | 
分 配 内 存 ， 但 是 程序 在 执行 时 的 动态 性 决定 了 一 个 对 象 。 557 

何 时 才 会 变 为 孤儿 ， 系 统 并 不 能 准确 地 知道 应 该 何 时 释 
放 一 个 对 象 的 内 存 。 在 许多 语言 中 ( 例如 C 和 Ct+) ， a 
分 配 和 释放 内 存 是 程序 员 的 责任 。 众 所 周知 ， 这 种 操作 812 1 | 
既 繁琐 又 容易 出 错 。Java 最 重要 的 一 个 特性 就 是 自动 内 813 2011 
存 管理 。 它 通过 记录 孤儿 对 象 并 将 它们 的 内 存 释放 到 内 








存 池 中 将 程序 员 从 管理 内 存 的 责任 中 解放 出 来 。 这 种 回 L_ 

收 内 存 的 方式 叫做 垃圾 回收 。Java 的 一 个 特点 就 是 它 不 

允许 修改 引用 的 策略 。 这 种 策略 使 Java 能 够 高 效 自动 地 图 1.29 孤儿 对 象 

回收 垃圾 。 程 序 员 们 至 今 仍 在 争论 ， 为 获得 无 需 为 内 存 管理 操心 的 方便 而 付出 的 使 用 自动 垃圾 回收 
的 代价 是 否 值得 。 


1.2.5.10 不 可 变性 

不 可 变数 据 类 型 ， 例 如 Date， 指 的 是 该 类 型 的 对 象 中 的 值 在 创建 之 后 就 无 法 再 被 改变 。 与 此 
相反 ， 可 变数 据 类 型 ， 例 如 Counter 或 Accumulator， 能 够 操作 并 改变 对 象 中 的 值 。Java 语言 通 
过 final 修饰 符 来 强制 保证 不 可 变性 。 当 你 将 一 个 变量 声明 为 final 时 ， 也 就 保证 了 只 会 对 它 赋 
值 一 次 ， 可 以 用 赋值 语句 ， 也 可 以 用 构造 函数 。 试 图 改变 final 变量 的 值 的 代码 将 会 产生 一 个 编译 
时 错误 。 在 我 们 的 代码 中 ,我 们 用 final 修饰 值 不 会 改变 的 实例 变量 。 这 种 策略 就 像 文档 一 样 ， 说 
明了 这 个 变量 的 值 不 会 再 发 生 改变 ， 它 能 够 预防 意外 修改 ， 也 能 使 程序 的 调试 更 加 简单 。 像 Date 
这 样 实例 变量 均 为 原始 数据 类 型 且 被 final 修饰 的 数据 类 型 ( 按照 约定 ， 在 不 使 用 子 类 继承 的 代码 
中 ) 是 不 可 变 的 。 数 据 类 型 是 否 可 变 是 一 个 重要 的 设计 决策 ， 它 取决 于 当前 的 应 用 场景 。 对 于 类 似 
于 Date 的 数据 类 型 ， 抽 象 的 目的 是 封装 不 变 的 值 ， 以 便 将 其 和 原始 数据 类 型 一 样 用 于 赋值 语句 、 
作为 函数 的 参数 或 返回 值 ( 而 不 必 担 心 它们 的 值 会 被 改变 ) 。 程 序 员 在 使 用 Date 时 可 能 会 写 出 操 
作 两 个 Date 类 型 的 变量 的 代码 d = d0， 就 像 操作 double 或 者 int 值 一 样 。 但 如 果 Date 类 型 是 
可 变 的 且 d 的 值 在 d = d0 之 后 可 以 被 改变 ,那么 d0 的 值 也 会 被 改变 ( 它们 都 是 指向 同一 个 对 象 
的 引用 ) ! 从 另 一 方面 来 说 ， 对 于 类 似 于 Counter 和 Accumulator 的 数据 类 型 ， 抽 象 的 目的 是 封 
装 变化 中 的 值 。 作 为 用 例 程序 员 ， 你 在 使 用 Java 数组 (可 变 ) 和 Java 的 String 类 型 (不 可 变 ) 时 
就 已 经 遇 到 了 这 种 区 别 。 将 一 个 String 传递 给 一 个 方法 时 ， 你 不 会 担心 该 方法 会 改变 字符 串 中 的 
字符 顺序 ， 但 当 你 把 一 个 数组 传递 给 一 个 方法 时 ， 方 法 可 以 自由 改变 数组 的 内 容 。String 对 象 是 


1.2 数据 抽象 本 67 


不 可 变 的 ， 因 为 我 们 一 般 都 不 希望 String 的 值 改 变 ， 而 Java 数组 是 可 变 的， 因为 我 们 一 般 的 确 希 
望 改变 数组 中 的 值 。 但 也 存在 我 们 希望 使 用 可 变 字符 串 ( 这 就 是 Java 的 StringBuilder 类 存在 的 
目的 ) 和 不 可 变数 组 ( 这 就 是 稍 后 讨论 的 Vector 类 存在 的 目的 ) 的 情况 。 一 般 来 说 ， 不 可 变 的 数 
据 类 型 比 可 变 的 数据 类 型 使 用 更 容易 ， 误 用 更 困难 ， 因 为 能 够 改变 它们 的 值 的 方式 要 少 得 多 。 调 试 
使 用 不 可 变 类 型 的 代码 更 简单 ， 因 为 我 们 更 容易 确保 用 例 代码 中 使 用 它们 的 变量 的 状态 前 后 一 致 。 
在 使 用 可 变数 据 类 型 时 ， 必 须 时 刻 关注 它们 的 值 会 在 何 时 何 地 发 生变 化 。 而 不 可 变性 的 缺点 在 于 我 
们 需要 为 每 个 值 创建 一 个 新 对 象 。 这 种 开销 一 般 是 可 以 接受 的 ， 因 为 Java 的 垃圾 回收 器 通常 都 为 此 
进行 了 优化 。 不 可 变性 的 另 一 个 缺点 在 于 ，final 非常 不 幸 地 只 能 用 来 保证 原始 数据 类 型 的 实例 变 
量 的 不 可 变性 ， 而 无 法 用 于 引用 类 型 的 变量 。 如 果 一 个 应 用 类 型 的 实例 变量 含有 修饰 符 fina1， 该 
实例 变量 的 值 ( 某 个 对 象 的 引用 ) 就 永远 无 法 改变 了 一 一 它 将 永远 指向 同一 个 对 象 ， 但 对 象 的 值 本 
身 仍然 是 可 变 的。 例如 ， 这 段 代码 并 没有 实现 一 个 不 可 变 的 数据 类 型 : 


public class Vector 


private final double[] coords; 
public Vector(double[] a) 
{ coords =a;} 
过 
用 例 程序 可 以 通过 给 定 的 数组 创建 一 个 Vector 对 象 ， 并 在 构造 函数 执行 之 后 ( 绕 过 AP1) 改 
变 Vector 中 的 元 素 的 值 ; 


double[] a = { 3.0, 4.0 }; 
Vector vector = new Vector(a); 
a[0] = 0.0; // 绕 过 了 公有 API 


实例 变量 coords[] 是 private 和 final 的， 但 Vector 是 可 变 的 ， 因 为 用 例 拥 有 指向 数据 
的 一 个 引用 。 任 何 数据 类 型 的 设计 都 需要 考虑 到 不 可 变性 ， 而 且 数 据 类 型 是 否 是 不 可 变 的 则 应 该 在 
API 中 说 明 ， 这 样 使 用 者 才能 知道 该 对 象 中 的 值 是 无 法 
改变 的 。 在 本 书 中 ,我 们 对 不 可 变性 的 主要 兴趣 在 于 用 表 1.2.18 可 变 与 不 可 变数 据 类 型 举例 
它 保 证 我 们 的 算法 的 正确 性 。 例 如 ， 如 果 一 个 二 分 查找 可 变数 据 类 型 不 可 变数 据 类 型 








算法 所 使 用 的 数据 的 类 型 是 可 变 的 ， 那么 算法 的 用 例 就 Counter Date 
可 能 破坏 我 们 对 二 分 查找 中 的 数组 已 经 有 序 的 假设 。 可 ma 数组 String To 
变数 据 与 不 可 变数 据 的 示例 见 表 1.2.18。 106| 











1.2.5.11 契约 式 设 计 

在 最 后 ， 我 们 将 简要 讨论 Java 语言 中 能 够 在 程序 运行 时 检验 程序 状态 的 一 些 机 制 。 为 此 我 们 将 
使 用 两 种 Java 的 语言 特性 : 

口 异常 (Exception ) ， 一 般 用 于 处 理 不 受 我 们 控制 的 不 可 预见 的 错误 ; 

口 断言 ( Assertion ) ， 验 证 我 们 在 代码 中 做 出 的 一 些 假设 。 

大 量 使 用 异常 和 断言 是 很 好 的 编程 实践 。 为 了 节约 版 面 我 们 在 本 书 中 极 少 使 用 它们 ， 但 你 在 本 
书 网 站 上 的 所 有 代码 中 都 会 找到 它们 。 这 些 代码 中 的 每 个 和 异常 条 件 以 及 断言 恒等式 有 关 的 算法 周 
围 都 有 大 量 的 注释 。 
1.2.5.12 ”异常 与 错误 

和 异常 和 错误 都 是 在 程序 运行 中 出 现 的 破坏 性 事件 。Java 采取 的 行动 称 为 抛 出 异常 或 是 
抛 出 错误 。 我 们 已 经 在 学 习 Java 的 基本 特性 的 过 程 中 遇 到 过 Java 系 统 方法 抛 出 的 异常 : 
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StackOverflowError 、ArithmeticException、ArrayIndexOutOfBoundsException、 
OutOfMemoryError 和 Nu11PointerException 都 是 典型 的 例子 。 你 也 可 以 创建 自己 的 异常 ， 最 简 
单 的 一 种 是 RuntimeException， 它 会 中 断 程 序 的 执行 并 打印 出 一 条 出 错 信息 : 

throw new RuntimeException("Error message here."); 

-种 叫做 快速 出 错 的 常规 编程 实践 提倡 , 一 旦 出 错 就 立刻 抛 出 异常 , 使 定位 出 错位 置 更 容易 (这 

和 忽略 错误 并 将 异常 推迟 到 以 后 处 理 的 方式 相反 ) 。 
1.2.5.13 断言 

断言 是 一 条 需要 在 程序 的 某 处 确认 为 true 的 布尔 表达 式 。 如 果 表 达 式 的 值 为 false， 程 序 
将 会 终止 并 报告 一 条 出 错 信息 。 我 们 使 用 断言 来 确定 程序 的 正确 性 并 记录 我 们 的 意图 。 例 如 ， 假 
设 你 计算 得 到 一 个 值 并 可 以 将 它 作为 索引 访问 一 个 数组 。 如 果 该 值 为 负数 ， 稍 后 它 将 会 产生 一 条 
ArrayIndexOutOfBoundsException 异常 。 但 如 果 代 码 中 有 -一句 assert index >= 0;， 你 就 能 
找到 出 错 的 位 置 。 还 可 以 选择 性 地 加 上 一 条 详细 的 消息 来 辅助 定位 bug， 例 如 : 

assert index >= 0 : "Negative index in method X"; 

默认 设置 没有 启用 断言 ,可 以 在 命令 行 下 使 用 -enableassertions 标 志 ( 简写 为 -ea ) 遍 用 断言 。 
断言 的 作用 是 调试 : 程序 在 正常 操作 中 不 应 该 依赖 断言 ， 因 为 它们 可 能 会 被 禁用 。 系 统 编程 课程 会 
学 习 使 用 断言 来 保证 代码 永远 不 会 被 系统 错误 终止 或 是 进入 死 循 环 。 一 种 叫做 契约 式 设计 的 编程 模 
型 采用 的 就 是 这 种 思想 。 数 据 类 型 的 设计 者 需要 说 明 前 提 条 件 ( 用例 在 调用 某 个 方法 前 必须 满足 的 
条 件 ) 、 后 置 条 件 ( 实现 在 方法 返回 时 必须 达到 的 要 求 ) 和 副作用 ( 方法 可 能 对 对 象 状态 产生 的 任 
何其 他 变更 ) 。 在 开发 过 程 中 ， 这 些 条 件 可 以 用 断言 进行 测试 。 
1.2.5.14 小结 

本 节 所 讨论 的 语言 机 制 说 明 实用 数据 类 型 的 设计 中 所 过 到 的 问题 并 不 容易 解决 。 专 家 们 仍然 在 
讨论 支持 某 些 我 们 已 经 学 习 过 的 设计 理念 的 最 佳 方法 。 为 什么 Java 不 允许 将 函数 作为 参数 ? 为 什么 
Matlab 会 复制 作为 参数 传递 给 函数 的 数组 ? 正如 本 章 前 文 所 述 ， 如 果 你 总 是 抱怨 编程 语言 的 特性 ， 
那么 你 只 能 自己 设计 编程 语言 了 。 如 果 你 不 希望 这 样 ， 最 好 的 策略 就 是 使 用 应 用 最 广泛 的 编程 语言 。 
大 多 数 系统 都 含有 大 量 的 库 ， 在 适当 的 时 候 你 应 该 能 用 到 它们 ， 但 通常 你 都 能 够 通过 构造 易于 移植 
到 其 他 编程 语言 的 抽象 层 来 简化 用 例 代码 并 进行 自我 保护 。 设 计数 据 类 型 是 你 的 主要 目标 ， 从 而 使 
大 多 数 工 作 都 能 在 抽象 层次 完成 ， 且 和 手头 的 问题 匹配 。 

表 1.2.19 总 结 了 我 们 讨论 过 的 各 种 Java 类 。 


表 1.2.19 Java 类 (数据 类 型 的 实现 ) 




















类 的 类 别 举例 特 点 
静态 方法 Math StdIn StdOut 没有 实例 变量 
不 可 变 的 抽象 数据 类 型 Date Transaction String Integer ”实例 变量 均 为 private 
实例 变量 均 为 final 
保护 性 复制 引用 类 型 数据 
注意 : 这 些 都 是 必要 但 不 充分 条 件 
可 变 的 抽象 数据 类 型 Counter Accumulator 实例 变量 均 为 private 
并 非 所 有 实例 变量 均 为 final 


具有 IO 副作用 的 抽象 数据 类 型 ” VisualAccumulator In Out Draw 实例 变量 均 为 private 
实例 方法 会 处 理 VO 





1.2 数据 抽象 二 69 


图 答 经 


间 


为 什么 要 使 用 数据 抽象 ? 

它 能 够 帮助 我 们 编写 可 靠 而 正确 的 代码 。 例 如 ， 在 2000 年 的 美国 总 统 竞选 中 ，Al Gore 在 弗 罗 里 达 
州 的 Volusia 县 的 一 个 电子 计 票 机 上 得 到 了 -16022 张 选 票 一 一 显然 电子 计 票 机 软件 中 的 选票 计数 器 
的 封装 不 正确 ! 

为 什么 要 区 别 原始 数据 类 型 和 引用 类 型 ? 为 什么 不 只 用 引用 类 型 ? 

因为 性 能 。Java 提供 了 Integer 、Double 等 和 原始 数据 类 型 对 应 的 引用 类 型 ， 以 供 希 望 忽略 这 些 类 
型 的 区 别 的 程序 员 使 用 。 原 始 数据 类 型 更 接近 计算 机 硬件 所 支持 的 数据 类 型 ， 因 此 使 用 它们 的 程序 
比 使 用 引用 类 型 的 程序 运行 得 更 快 。 

数据 类 型 必须 是 抽象 的 吗 ? 

不 。Java 也 支持 public 和 protected 来 帮助 用 例 直接 访问 实例 变量 。 如 正文 所 述 ， 允 许 用 例 代码 
直接 访问 数据 所 带 来 的 好 处 比 不 上 对 数据 的 特定 表示 方式 的 依赖 所 带 来 的 坏处 ， 因 此 我 们 代码 中 所 
有 的 实例 变量 都 是 私有 的 ( private ) ， 有 时 也 会 使 用 私有 实例 方法 在 公有 方法 之 间 共享 代码 。 

如 果 我 在 创建 一 个 对 象 时 忘记 使 用 new 关键 字 会 发 生 什么 ? 

对 于 Java， 这 种 代码 看 起 来 就 好 像 你 希望 调用 一 个 静态 方法 ， 却 得 到 一 个 对 象 类 型 的 返回 值 。 因 为 
并 没有 定义 这 样 一 个 方法 ,你 得 到 的 错误 信息 和 引用 一 个 未 定义 的 符号 是 一 样 的 。 如 果 编 译 这 段 代码 
Counter ¢ = Counter("test"); 

会 得 到 这 条 错误 信息 : 


cannot find symbol 
symbo1 : method Counter(String) 


如 果 你 提供 给 构造 丽 数 的 参数 数量 不 对 ， 也 会 得 到 相同 的 出 错 信息 。 110 
如 果 我 在 创建 一 个 对 象 数组 时 忘记 使 用 new 关键 字 会 发 生 什么 ? 

创建 每 个 对 象 都 需要 使 用 new， 所 以 要 创建 一 个 含有 和 N 个 对 象 的 数组 ， 需 要 使 用 N+1 次 new 关键 字 : 

创建 数组 需要 一 次 ， 创 建 每 个 对 象 各 需要 一 次 。 如 果 忘 了 创建 数组 : 


Counter[] a; 
a[0] = new Counter("test"); 


你 得 到 的 错误 信息 和 尝试 为 一 个 未 初始 化 的 变量 赋值 是 一 样 的 : 
variable a might not have been initialized 


a[0] = new Counter("test"); 
A 


但 如 果 在 创建 数组 中 的 一 个 对 象 时 忘 了 使 用 new， 然 后 又 尝试 调用 它 的 方法 ， 会 得 到 一 个 
Nu11PointerException: 














Counter[] a = new Counter[2]; 
a[0] .incrementO; 


为 什么 不 用 Std0ut.println(x.toStringO) 来 打印 对 象 ? 

这 条 语句 也 可 以 ， 但 Java 能 够 自动 调用 任意 对 象 的 toString() 方法 来 帮 我 们 省 去 这 些 麻烦 ， 因 为 
print1n() 接受 的 参数 是 一 个 Object 对 象 。 

指针 是 什么 ? 

问 得 好 。 或 许 上 面 那个 异常 应 该 叫做 Nu11ReferenceException。 和 Java 的 引用 一 样 ， 可 以 把 指 
针 看 做 机 器 地 址 。 在 许多 编程 语言 中 ， 指 针 是 一 种 原始 数据 类 型 ， 程 序 员 可 以 用 各 种 方法 操作 它 。 
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但 众所周知 ， 指 针 的 编程 非常 容易 出 错 ， 因 此 需要 精心 设计 指针 类 的 操作 以 帮助 程序 员 避 免 错误 。 

Java 将 这 种 观点 发 挥 到 了 极致 (许多 主流 编程 语言 的 设计 者 也 赞同 这 种 做 法 ) 。 在 Java 中 ,创建 引 
用 的 方法 只 有 一 种 (new ) ， 且 改变 引用 的 方法 也 只 有 一 种 ( 赋值 语句 ) 。 也 就 是 说 ， 程 序 员 能 对 引 
用 进行 的 操作 只 有 创建 和 复制 。 在 编程 语言 的 行 话 里 ，Java 的 引用 被 称 为 安全 指针 ， 因 为 Java 能 够 
保证 每 个 引用 都 会 指向 某 种 类 型 的 对 象 ( 而 且 它 能 找 出 无 用 的 对 象 并 将 其 回收 ) 。 习 惯 于 编写 直接 
操作 指针 的 程序 员 认为 Java 完全 没有 指针 ， 但 人 们 仍 在 为 是 否 真 的 需要 不 安全 的 指针 而 争论 。 

我 在 哪里 能 够 找到 Java 如 何 实现 引用 和 进行 垃圾 收集 的 细节 ? 

Java 系统 的 实现 各 有 不 同 。 例 如 ， 实 现 引用 的 一 种 自然 方式 是 使 用 指针 ( 机 器 地 址 ) ;而 另 一 种 使 
用 的 则 可 能 是 句柄 ( 指针 的 指针 ) 。 前 者 访问 数据 的 速度 更 快 ,而 后 者 则 能 够 更 好 地 实现 垃圾 回收 。 

导入 (import ) 一 个 对 象 名 意味 着 什么 ? 

没什么 ， 只 是 可 以 少 打 一 些 字 。 如 果 不 想 使 用 import 语句 ， 你 也 可 以 在 代码 中 用 java.uti1. 
Arrays 代替 所 有 的 Arrays。 

实现 继承 有 什么 问题 ? 

子 类 继承 阻碍 模块 化 编程 的 原因 有 两 点 。 第 一 ， 父 类 的 任何 改动 都 会 影响 它 的 所 有 子 类 。 子 类 的 开 
发 不 可 能 和 父 类 无 关 。 事 实 上 , 子 类 是 完全 依赖 于 父 类 的 。 这 种 问题 被 称 为 脆弱 的 基 类 问题 。 第 二 ， 

子 类 代码 可 以 访问 所 有 实例 变量 ， 因 此 它们 可 能 会 扭曲 父 类 代码 的 意图 。 例 如 ， 用 于 选票 统计 系统 
的 Counter 类 的 设计 者 可 能 会 尽 最 大 努力 保证 Counter 每 次 只 能 将 计数 器 加 一 ( 还 记得 Al Gore 的 
问题 吗 ) 。 但 它 的 子 类 可 以 完全 访问 这 个 实例 变量 ， 因 此 可 以 将 它 改变 为 任意 值 。 

怎样 才能 使 一 个 类 不 可 变 ? 

要 保证 含有 一 个 可 变 类 型 的 实例 变量 的 数据 类 型 的 不 可 变性 ， 需 要 得 到 一 个 本 地 副本 ， 这 被 称 为 保 
护 性 复制 ， 但 这 也 不 一 定 能 够 达到 目的 。 得 到 副本 是 一 个 方面 ， 保 证 没有 任何 实例 方法 能 够 改变 数 
据 的 值 是 另 一 方面 。 

什么 是 空 (nu11) ? 

它 是 一 个 不 指向 任何 对 象 的 字面 量 。 引 用 nu11 调用 一 个 方法 是 没有 意义 的 ， 并 且 会 产生 
Nu11PointerException。 如 果 你 得 到 了 这 条 错误 信息 ， 请 检查 并 确认 构造 函数 是 否 正确 地 初始 化 
了 类 的 所 有 实例 变量 。 

实现 某 种 数据 类 型 的 类 中 能 天 存在 静态 方法 ? 

当然 可 以 。 例 如 ， 我 们 实现 的 所 有 类 中 都 含有 一 个 main() 方法 。 另 外 ， 对 于 涉及 多 个 对 象 的 操作 ， 

如 果 它 们 都 不 是 触发 该 方法 的 合适 对 象 ， 那 么 就 应 该 考虑 添加 一 个 静态 方法 。 例 如 ， 我 们 可 以 在 
Point 类 中 定义 如 下 静态 方法 : 

public static double distance(Point a, Point b) 

3 return a.distTo(b); 

这 种 方法 常常 能 够 简化 用 例 代码 。 

除了 参数 变量 、 局 部 变量 和 实例 变量 外 还 有 其 他 种 类 的 变量 吗 ? 

如 果 你 在 类 的 声明 中 包含 了 关键 字 static ( 在 其 他 类 型 之 前 )， 就 创建 了 一 种 称 为 静态 变量 的 完 
全 不 同 的 变量 。 和 实例 变量 一 样 ， 类 中 的 所 有 方法 都 可 以 访问 静态 变量 ,但 静态 变量 却 并 不 和 任 
何 具体 的 对 象 相关 联 。 在 较 老 的 编程 语言 中 ， 这 种 变量 被 称 为 全 局 变量 ， 因 为 它们 的 作用 域 是 全 
局 的 。 在 现代 编程 中 ， 我 们 希望 限制 变量 的 作用 域 ， 因 此 很 少 使 用 这 种 变量 。 在 使 用 它们 时 会 非 
常 小 心 。 
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问 ”什么 是 弃 用 (deprecated ) 的 方法 ? 
答 不 再 被 支持 但 为 了 保持 兼容 性 而 留 在 API 中 的 方法 叫做 弃 用 的 方法 。 例 如 ，Java 曾经 包含 了 一 个 
Character.isSpace() 的 方法 ,程序 员 也 使 用 这 个 方法 编写 了 一 些 程序 。 当 Java 的 设计 者 们 后 来 希 
望 支持 Unicode 空白 字符 时 ， 他 们 无 法 既 改 变 isSpace() 的 行为 又 不 损害 用 例 程序 。 因 此 他 们 添加 
了 一 个 新 方法 Character.iswhiteSpace() 并 放弃 了 老 的 方法 。 随 着 时 间 的 推移 ， 这 种 方式 显然 会 
使 API 更 复杂 。 有 时 候 甚 至 整个 类 都 会 被 弃 用 。 例 如 ，Java 为 了 更 好 地 支持 国际 化 就 将 它 的 java. 
uti1.Date 标记 为 弃 用 。 113 
图 练习 
1.2.1 编写 一 个 Point2D 的 用 例 ， 从 命令 行 接受 一 个 整数 N。 在 单位 正方 形 中 生成 W 个 随机 点 ， 然 后 计 
算 两 点 之 间 的 最 近 距 离 。 
1.2.2 编写 一 个 mtervallD 的 用 例 ， 从 命令 行 接受 一 个 整数 N。 从 标准 输入 中 读 取 N 个 间隔 ( 每 个 间隔 
由 一 对 double 值 定 义 ) 并 打印 出 所 有 相交 的 间隔 对 。 
1.2.3 编写 一 个 Interval2D 的 用 例 ， 从 命令 行 接受 参数 N、min 和 max。 生 成 N 个 随机 的 2D 间隔 ， 其 宽 
和 高 均匀 地 分 布 在 单位 正方 形 中 的 min 和 max 之 间 。 用 StdDraw 而 出 它们 并 打印 出 相交 的 间隔 对 
的 数量 以 及 有 包含 关系 的 间隔 对 数量 。 
1.2.4 以 下 这 段 代码 会 打印 出 什么 ? 
String stringl = "hello"; 
String string2 = stringl; 
stringl = “wor1d"; 


StdOut.println(stringl); 
StdOut.printin(string2); 


1.2.5 以 下 这 段 代码 会 打印 出 什么 ? 
String s = "Hello World"; 
5.toUpperCaseO); 
s.substring(6, 11); 
StdOut .print1n(s); 
答 :“he11o Wor1d"。String 对 象 是 不 可 变 的 一 一 所 有 字符 串 方法 都 会 返回 一 个 新 的 String 对 象 
(但 它们 不 会 改变 参数 对 象 的 值 ) 。 这 段 代 码 忽略 了 返回 的 对 象 并 直接 打印 了 原 字符 串 。 要 打印 出 
"WORLD"， 请 用 s = s.toUpperCase() 和 s = s.substring(6, 11)。 
1.2.6 如果 字符 串 s 中 的 字符 循环 移动 任意 位 置 之 后 能 够 得 到 另 一 个 字符 串 t+， 那么 s 就 被 称 为 上 的 回 
环 变 位 (circular rotation ) 。 例 如 ，ACTGACG 就 是 TGACGAC 的 一 个 回环 变 位 ， 反 之 亦 然 。 判 定 这 
个 条 件 在 基因 组 序列 的 研究 中 是 很 重要 的 编写 一 个 程序 检查 两 个 给 定 的 字符 串 s 和 + 是 否 互 为 ”[JI4 
回环 变 位 。 提 示 : 答案 只 需要 一 行 用 到 index0f() 、length() 和 字符 串 连 接 的 代码 。 
1.2.7 以 下 递归 函数 的 返回 值 是 什么 ? 
public static String mystery(String s) 
{ 
int N = s.length(); 
if CN <= 1) return si 
String a = s.substring(0, N/2); 
String b = s.substring(N/2, N); 
return mystery(b) + mystery(a); 
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1.2.8 设 ar[] 和 bf[] 均 为 长 数 百 万 的 整形 数组 。 以 下 代码 的 作用 是 什么 ? 有效 吗 ? 
int[] t =a;a=b;b=t; 
答 : 这 段 代码 会 将 它们 交换 。 它 的 效率 不 可 能 再 高 了 ， 因 为 它 复制 的 是 引用 而 不 需要 复制 数 百 万 
个 元 素 
1.2.9 修改 BinarySearch ( 请 见 1.1.10.1 节 中 的 二 分 查找 代码 ) ， 使 用 Counter 统计 在 有 查找 中 被 检 
查 的 键 的 总 数 并 在 查找 全 部 结束 后 打印 该 值 。 提 示 : 在 main() 中 创建 一 个 Counter 对 象 并 将 它 
作为 参数 传递 给 rank () 。 
1.2.10 编写 一 个 类 visualCounter， 支 持 加 一 和 减 一 操作 。 它 的 构造 函数 接受 两 个 参数 N 和 max， 其 
中 N 指定 了 操作 的 最 大 次 数 ，max 指定 了 计数 器 的 最 大 绝对 值 。 作 为 副作用 ， 用 图 像 显 示 每 次 计 
数 器 变化 后 的 值 。 
1.2.11 根据 Date 的 API 实现 一 个 SmartDate 类 型 ， 在 日 期 非法 时 抛 出 一 个 异常 。 
1.2.12 为 SmartDate 添加 一 个 方法 dayOfTheweekC) ， 为 日 期 中 每 周 的 日 返回 Monday、Tuesday、 
Wednesday、Thursday、Friday、Saturday 或 Sunday 中 的 适当 值 。 你 可 以 假定 时 间 是 21 世纪 。 
1.2.13 ”用 我 们 对 Date 的 实现 (请 见 表 1.2.12 ) 作为 模板 实现 Transaction 类 型 。 


115| 12.14 用 我 们 对 Date 中 的 equa1s() 方法 的 实现 (请 见 1.2.5.8 节 中 的 Date 类 代码 框 ) 作为 模板 ， 实 
116| 现 Transaction 中 的 equa1s() 方法 
图 提高 是 


1.2.15 文件 输入 。 基 于 String 的 sp1it() 方法 实现 In 中 的 静态 方法 readInts() 。 
解答 : 
public static int[] readInts(String name) 
{ 
In in = new In(name); 
String input = StdIn.readA110) ; 

String[] words = input.split("\\s+"); 
int[] ints = new int[words.length; 
forCint i = 0; i < word.length; i++) 

ints[i] = Integer.parseInt(words[i]); 
return ints; 
} 


我 们 会 在 1.3 节 中 学 习 另 一 个 不 同 的 实现 ( 请 见 13.1.5 节 ) 。 
1.2.16 。 有理数 。 为 有 理 数 实现 一 个 不 可 变数 据 类 型 Rationa1， 支 持 加 减 乘除 操作 。 


public class Rational 





Rational(int numerator, int denominator) 


Rational plus(Rational b) 该 数 与 之 和 
Rational minus(Rational b) 该 数 与 之 差 
Rational times(Rational b) 该 数 与 5 之 积 
Rational divides(Rational b) 该 数 与 5 之 商 
boolean equals(Rational that) 该 数 与 that 相等 吗 
String toStringO 对 象 的 字符 串 表示 


无 需 测试 溢出 〈 请 见 练习 1.2.17 ) ， 只 需 使 用 两 个 1ong 型 实例 变量 表示 分 子 和 分 母 来 控制 溢出 
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的 可 能 性 。 使 用 欧 几 里 德 算法 来 保证 分 子 和 分 母 没有 公 因子 。 编 写 一 个 测试 用 例 检测 你 实现 的 
所 有 方法 。 I 
1.2.17 有 理 数 实现 的 健壮 性 。 在 Rational ( 请 见 练习 1.2.16 ) 的 开发 中 使 用 断言 来 防止 溢出 。 
1.2.18 累加 器 的 方差 。 以 下 代码 为 Accumulator 类 添加 了 varC) 和 stddev0 方法 ， 它 们 计算 了 
addDataVa1ue() 方法 的 参数 的 方差 和 标准 差 ， 验 证 这 段 代码 。 


public class Accumulator 
{ 
private double m; 
private double s; 
private int N; 
public void addDataValue(double x) 
过 














N+ 
SsS=s+1.0* (ND)/N* x-m* x-m; 
m=m+ xX-m/N; 


public double mean() 

{ return mi } 

public double var() 

{ return s/(N - 1); } 

public double stddevO) 

{ return Math.sqrt(this.varO)); } 





与 直接 对 所 有 数据 的 平方 求 和 的 方法 相 比 较 ， 这 种 实现 能 够 更 好 地 避免 四 舍 五 信 产生 的 误差 。 118 
1.2.19 字符 串 解析 。 为 你 在 练习 1.2.13 中 实现 的 Date 和 Transaction 类 型 编写 能 够 解析 字符 串 数据 
的 构造 函数 。 它 接受 一 个 String 参数 指定 的 初始 值 ， 格 式 如 表 1.2.20 所 示 : 











表 1.2.20 被 解析 的 字符 串 的 格式 





类 型 格 式 举例 
Date 由 斜 杠 分 隔 的 整数 5/22/1939 
Transaction 客户 、 日 期 和 金额， 由 空白 字符 分 隔 Turing 5/22/1939 11.99 
部 分 解答 : 


public Date(String date) 
{ 


String[] fields = date.split("/"); 

month = Integer.parseInt(fields[0]); 

day = Integer.parseInt(fields[1]); 

year = Integer.parseInt(fields[2]); 119| 
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1.3 背包 、 队 列 和 栈 


许多 基础 数据 类 型 都 和 对 象 的 集合 有 关 。 具 体 来 说 ， 数 据 类 型 的 值 就 是 一 组 对 象 的 集合 ， 所 有 
操作 都 是 关于 添加 、 删 除 或 是 访问 集合 中 的 对 象 。 在 本 节 中 ， 我 们 将 学 习 三 种 这 样 的 数据 类 型 ， 分 
别 是 背包 ( Bag ) 、 队 列 ( Queue ) 和 栈 ( Stack ) 。 它们 的 不 同 之 处 在 于 删除 或 者 访问 对 象 的 顺序 不 同 。 

背包 、 队 列 和 栈 数据 类 型 都 非常 基础 并 且 应 用 广泛 。 我 们 在 本 书 的 各 种 实现 中 也 会 不 断 用 到 它 
们 。 除 了 这 些 应 用 以 外 ， 本 节 中 的 实现 和 用 例 代码 也 展示 了 我 们 开发 数据 结构 和 算法 的 一 般 方式 。 

本 节 的 第 一 个 目标 是 说 明 我 们 对 集合 中 的 对 象 的 表示 方式 将 直接 影响 各 种 操作 的 效率 。 对 于 集 
合 来 说 ， 我 们 将 会 设计 适 于 表示 一 组 对 象 的 数据 结构 并 高 效 地 实现 所 需 的 方法 。 

本 节 的 第 二 个 目标 是 介绍 泛 型 和 迁 代 。 它 们 都 是 简单 的 Java 概念 ， 但 能 极 大 地 简化 用 例 代码 。 
它们 是 高 级 的 编程 语言 机 制 ， 虽 然 对 于 算法 的 理解 并 不 是 必需 的 ， 但 有 了 它们 我 们 能 够 写 出 更 加 清 
晰 、 简 洁 和 优美 的 用 例 (以 及 算法 的 实现 ) 代码 。 

本 节 的 第 三 个 目标 是 介绍 并 说 明 链 式 数 据 结构 的 重要 性 ， 特 别 是 经 典 数据 结构 链表 ， 有 了 它 我 
们 才能 高 效 地 实现 背包 、 队 列 和 栈 。 理 解 链表 是 学 习 各 种 算法 和 数据 结构 中 最 关键 的 第 一 步 。 

对 于 这 三 种 数据 结构 ， 我 们 都 会 学 习 其 API 和 用 例 ， 然 后 再 讨论 数据 类 型 的 值 的 所 有 可 能 的 表 
示 方 法 以 及 各 种 操作 的 实现 。 这 种 模式 会 在 全 书 中 反复 出 现 ( 且 数据 结构 会 越 来 越 复杂 ) 。 这 里 的 
实现 是 下 文 所 有 实现 的 模板 ， 值 得 仔细 研究 


1.3.1 API 
照例 ， 我 们 对 集合 型 的 抽象 数据 类 型 的 讨论 从 定义 它们 的 API 开始 ， 如 表 1.3.1 所 示 。 每 份 
API 都 含有 一 个 无 参数 的 构造 函数 、 一 个 向 集合 中 添加 单个 元 素 的 方法 、 一 个 测试 集合 是 否 为 空 
的 方法 和 一 个 返回 集合 大 小 的 方法 。Stack 和 Queue 都 含有 一 个 能 够 删除 集合 中 的 特定 元 素 的 方 
法 。 除 了 这 些 基本 内 容 之 外 ， 我 们 将 在 以 下 几 节 中 解释 这 几 份 API 反映 出 的 两 种 Java 特性 : 泛 型 
与 选 代 。 
表 1.3.1 泛 型 可 迭代 的 基础 集合 数据 类 型 的 APl 


——— ---- 
背包 


public class Bag<Item> implements Iterable<Item> 





BagO) 创建 一 个 空 背包 
void add(Item item) 洪 加 一 个 元 素 
boolean isEmpty(O) 背包 是 否 为 空 
int size() 背包 中 的 元 素数 量 





先进 先 出 FIFO) 队列 


public class Queue<Item> implements Iterable<Item> 





QueueO 创建 空 队列 
void enqueue(Item item) 添加 一 个 元 素 
Item dequeue() 删除 最 近 添加 的 元 素 
boolean isEmpty©O) 队列 是 否 为 空 


int sizeO 队列 中 的 元 素数 量 
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( 续 ) 
下 压 《〈 后 进 先 出 ，LIFO) 栈 
public class Stack<Item> implements Iterable<Item> 
StackO 创建 一 个 空 栈 
void push(Item item) 添加 一 个 元 素 
Item popO) 删除 最 近 添 加 的 元 素 
boolean isEmptyO) 栈 是 否 为 空 
int sizeO 栈 中 的 元 素数 量 1 
1.3.1.1 泛 型 


集合 类 的 抽象 数据 类 型 的 一 个 关键 特性 是 我 们 应 该 可 以 用 它们 存储 任意 类 型 的 数据 。 一 种 特别 
的 Java 机 制 能 够 做 到 这 一 点 ， 它 被 称 为 泛 型 ， 也 叫做 参数 化 类 型 。 泛 型 对 编程 语言 的 影响 非常 深 
刻 ， 许 多 语言 并 没有 这 种 机 制 ( 包括 早期 版 本 的 Java ) 。 在 这 里 我 们 对 泛 型 的 使 用 仅 限于 一 点 额外 
的 Java 语法 ， 非 常 容易 理解 。 在 每 份 API 中 ， 类 名 后 的 <Item> 记号 将 Ttem 定义 为 一 个 类 型 参数 ， 
它 一 个 象征 性 的 占 位 符 ， 表 示 的 是 用 例 将 会 使 用 的 某 种 具体 数据 类 型 。 可 以 将 Stack<Item> 理解 
为 要 种 元 素 的 栈 。 在 Stack 时 ， 我 们 并 不 知道 Item 的 具体 类 型 ， 但 用 例 可 以 用 我 们 的 栈 处 理 
任意 类 型 的 数据 ， 甚 至 是 在 我 们 的 实现 之 后 才 出 现 的 数据 类 型 。 在 创建 栈 时 ， 用 例会 提供 一 种 具体 
的 数据 类 型 : 我 们 可 以 将 Ttem 替换 为 任意 引用 数据 类 型 ( Ttem 出 现 的 每 个 地 方 都 是 如 此 ) 。 这 种 
能 力 正 是 我 们 所 需要 的 。 例 如 ， 可 以 编写 如 下 代码 来 用 栈 处 理 String 对 象 : 


Stack<String> stack = new Stack<String>O; 
stack.push("Test"); 








String next = stack.popO; 
并 在 以 下 代码 中 使 用 队列 处 理 Date 对 象 : 

Queue<Date> queue = new Queue<Date>(); 

queue.enqueue(new Date(12, 31, 1999)); 

Date next = queue.dequeue(); 

如 果 你 尝试 向 stack 变量 中 添加 一 个 Date 对 象 (或 是 任何 其 他 非 String 类 型 的 数据 ) 或 者 
向 queue 变量 中 添加 一 个 String 对 象 ( 或 是 任何 其 他 非 Date 类 型 的 数据 ) ， 你 会 得 到 一 个 编译 
时 错误 。 如 果 没 有 泛 型 , 我 们 必须 为 需要 收集 的 每 种 数据 类 型 定义 ( 并 实现 ) 不同 的 API。 有 了 泛 型 ， 
我 们 只 需要 一 份 API ( 和 一 次 实现 ) 就 能 够 处 理 所 有 类 型 的 数据 ， 甚 至 是 在 未 来 定义 的 数据 类 型 。 
你 很 快 将 会 看 到 ， 使 用 泛 型 的 用 例 代码 很 容易 理解 和 调试 ， 因 此 全 书 中 我 们 都 会 用 到 它 。 
1.3.1.2 自动 装 箱 

类 型 参数 必须 被 实例 化 为 引用 类 型 ， 因 此 Java 有 一 种 特殊 机 制 来 使 泛 型 代码 能 够 处 理 原始 
数据 类 型 。 我 们 还 记得 Java 的 封装 类 型 都 是 原始 数据 类 型 所 对 应 的 引用 类 型 : Boolean、Byte、 
Character、Double、Float、Integer、Long 和 Short 分 别 对 应 着 boolean、byte、char、 
double、float 、int、1ong 和 short。 在 处 理 赋值 语句 、 方 法 的 参数 和 算术 或 逻辑 表达 式 时 ， 
Java 会 自动 在 引用 类 型 和 对 应 的 原始 数据 类 型 之 间 进行 转换 。 在 这 里 ， 这 种 转换 有 助 于 我 们 同时 使 《122| 
用 泛 型 和 原始 数据 类 型 。 例 如 : 
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Stack<Integer> stack = new Stack<Integer>O); 
stack.push(17); // 自动 装 箱 (int -> Integer) 
int i = stack.pop(); // 自动 诉 箱 (Integer -> int) 


自动 将 一 个 原始 数据 类 型 转换 为 一 个 封装 类 型 被 称 为 自动 装 箱 ， 自 动 将 一 个 封装 类 型 转换 为 一 
个 原始 数据 类 型 被 称 为 自动 拆 箱 。 在 这 个 例子 中 ， 当 我 们 将 一 个 原始 类 型 的 值 17 传递 给 push() 方 
法 时 ，Java 将 它 的 类 型 自动 转换 ( 自动 装 箱 ) 为 Integer。pop() 方法 返回 了 一 个 Integer 类 型 的 
值 ，Java 在 将 它 赋予 变量 i 之 前 将 它 的 类 型 自动 转换 ( 自动 拆 箱 ) 为 了 int。 
1.3.1.3 ”可 迁 代 的 集合 类 型 

对 于 许多 应 用 场景 ， 用 例 的 要 求 只 是 用 某 种 方式 处 理 集合 中 的 每 个 元 素 ， 或 者 叫做 迁 代 访问 集合 
中 的 所 有 元 素 。 这 种 模式 非常 重要 ， 在 Java 和 其 他 许多 语言 中 它 都 是 一 级 语言 特性 ( 不 只 是 库 ， 编 程 
语言 本 身 就 含有 特殊 的 机 制 来 支持 它 ) 。 有 了 它 ， 我 们 能 够 写 出 清晰 简洁 的 代码 且 不 依赖 于 集合 类 型 的 
具体 实现 。 例 如 ， 假 设 用 例 在 Queue 中 维护 一 个 交易 集合 ， 如 下 : 


Queue<Transaction> collection = new Queue<Transaction>(); 


如 果 集 合 是 可 迭代 的 ， 用 例 用 一 行 语句 即 可 打印 出 交易 的 列表 : 
for (Transaction t : collection) 
{ StdOut.printIn(t); } 


这 种 语法 叫做 foreach 语句 : 可 以 将 for 语句 看 做 对 于 集合 。。 个 半 有 
中 的 每 个 交易 tCforeach) ， 执 行 以 下 代码 段 。 这 段 用 例 代码 不 需 和 
要 知道 集合 的 表示 或 实现 的 任何 细节 ， 它 只 想 逐 个 处 理 集合 中 的 
元 素 。 相 同 的 for 语句 也 可 以 处 理 交易 的 Bag 对 象 或 是 任何 可 迁 
代 的 集合 。 很 难 想象 还 有 比 这 更 加 清晰 和 简洁 的 代码 ,你 将 会 看 到 ， 
支持 这 种 迭代 需要 在 实现 中 添加 额外 的 代码 ， 但 这 些 工作 是 值 @ @ 
得 的 。 

有 趣 的 是 ，Stack 和 Queue 的 API 的 唯一 不 同 之 处 只 是 它 add(®) 
们 的 名 称 和 方法 名 。 这 让 我 们 认识 到 无 法 简单 地 通过 一 列 方法 
的 签名 说 明 一 个 数据 类 型 的 所 有 特点 。 在 这 里 ， 只 有 自然 语言 
的 描述 才能 说 明 选择 被 删除 元 素 ( 或 是 在 foreach 语句 中 下 一 @ 
个 被 处 理 的 元 素 ) 的 规则 。 这 些 规 则 的 差异 是 API 的 重要 组 成 
部 分 ， 而 且 显然 对 用 例 代码 的 开发 十 分 重要 。 add( 间 ) 
1.3.1.4 背包 

背包 是 一 种 不 支持 从 中 删除 元 素 的 集合 数据 类 型 一 它 的 
目的 就 是 帮助 用 例 收集 元 素 并 选 代 饥 历 所 有 收集 到 的 元 素 (用 多 
例 也 可 以 检查 背包 是 否 为 空 或 者 获取 背包 中 元 素 的 数量 ) 。 先 @ @ 
代 的 顺序 不 确定 且 与 用 例 无 关 。 要 理解 背包 的 概念 ， 可 以 想象 
一 个 非常 喜欢 收集 弹子 球 的 人 。 他 将 所 有 的 弹子 球 都 放 在 一 个 
背包 里 ， 一 次 一 个 ， 并 且 会 不 时 在 所 有 的 弹子 球 中 寻找 某 一 颗 
拥有 某 种 特点 的 弹子 球 。 使 用 Bag 的 API， 用 例 可 以 将 元 素 添 
加 进 背 包 并 根据 需要 随时 使 用 foreach 语句 访问 所 有 的 元 素 。 处 理 任意 弹子 球 
用 例 也 可 以 使 用 栈 或 是 队列 ， 但 使 用 Bag 可 以 说 明 元 素 的 处 理 中 
顺序 不 重要 。 图 1.3.1 所 示 的 Stats 类 是 Bag 的 一 个 典型 用 例 。 。 图 1.3.1 背包 的 操作 ( 另 见 彩 插 ) 
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它 的 任务 是 简单 地 计算 标准 输入 中 的 所 有 double 值 的 平均 值 和 样本 标准 差 。 如 果 标 准 输 入 中 有 入 
个 数字 ， 那么 平均 值 为 它们 的 和 除 以 N， 样 本 标准 差 为 每 个 值 和 平均 值 之 差 的 平方 之 和 除 以 N-1 之 
后 的 平方 根 。 在 这 些 计算 中 ， 数 的 计算 顺序 和 结果 无 关 ， 因 此 我 们 将 它们 保存 在 一 个 Bag 对 象 中 
并 使 用 foreach 语法 来 计算 每 个 和 。 注 意 : 不 需要 保存 所 有 的 数 也 可 以 计算 标准 差 〈 就 像 我 们 在 
Accumulator 中 计算 平均 值 那样 一 一 请 见 练习 1.2.18 ) 。 用 Bag 对 象 保存 所 有 数字 是 更 复杂 的 统计 
计算 所 必需 的 。 
以 下 代码 框 列 出 的 是 常用 的 背包 用 例 。 
背包 的 典型 用 例 
public class Stats 
public static void main(String[] args) 
{ 


Bag<Double> numbers = new Bag<Double>O; 


while (!StdIn.isEmpty()) 
numbers.add(StdIn. readDouble()); 使 用 方法 
int N = numbers.sizeO; 


double sum = 0.0; % java Stats 


for (double x ; numbers) 0 
Sum += Xi 99 
double mean = sum/N; 101 
120 

sum = 0.0; pe 
for (double x : numbers) 107 
Sum += (Xx - mean)*(x - mear); i0g 
double std = Math.sqrt(sum/(N-1)); B81 
StdOut.printf("Mean: %.2f\n", mean); 101 
StdOut.printf("Std dev: %.2f\n", std); 90 

} Mean: 100.60 
} Std dev: 10.51 


1.3.1.5 ”先进 先 出 队列 
先进 先 出 队列 (或 简称 队列 ) 是 一 种 基于 先进 先 出 (FIFO ) 策略 的 集合 类 型 ， 如 图 1.3.2 所 示 。 

按照 任务 产生 的 顺序 完成 它们 的 策略 我 们 每 天 都 会 遇 到 : 在 剧院 门 前 排队 的 人 们 、 在 收费 站 前 排队 
的 汽车 或 是 计算 机 上 某 种 软件 中 等 待 处 理 的 任务 。 任 何 服务 性 策略 的 基本 原则 都 是 公平 。 在 提 到 公 
平时 大 多 数 人 的 第 一 个 想法 就 是 应 该 优先 服务 等 待 最 久 的 人 ， 这 正 是 先进 先 出 策略 的 准则 。 队 列 是 
许多 日 常 现象 的 自然 模型 ， 它 也 是 无 数 应 用 程序 的 核心 。 当 用 例 使 用 foreach 语句 迭代 访问 队列 中 
的 元 素 时 ， 元 素 的 处 理 顺序 就 是 它们 被 添加 到 队列 中 的 顺序 。 在 应 用 程序 中 使 用 队列 的 主要 原因 
是 在 用 集合 保存 元 素 的 同时 保存 它们 的 相对 顺序 使 它们 入 列 顺序 和 出 列 顺序 相同 。 例 如 ， 下 页 
的 用 例 是 我 们 的 In 类 的 静态 方法 readInts() 的 一 种 实现 。 这 个 方法 为 用 例 解决 的 问题 是 用 例 无 
需 预 先知 道 文件 的 大 小 即 可 将 文件 中 的 所 有 整数 读 入 一 个 数组 中 。 我 们 首先 将 所 有 的 整数 读 入 队 
列 中 ， 然 后 使 用 Queue 的 size() 方法 得 到 所 需 数组 的 大 小 ， 创 建 数组 并 将 队列 中 的 所 有 整数 移 
动 到 数组 中 。 队 列 之 所 以 合适 是 因为 它 能 够 将 整数 按照 文件 中 的 顺序 放 入 数组 中 ( 如 果 该 顺序 并 
不 重要 ， 也 可 以 使 用 Bag 对 象 ) 。 这 段 代码 使 用 了 自动 装 箱 和 拆 箱 来 转换 用 例 中 的 int 原始 数据 
类 型 和 队列 的 Integer 封装 类 型 。 
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人 客户 队列 
ieneslen 
队列 末端 
新 来 的 客户 
入 列 + 
CO) (ERIE IE 
队列 末端 
新 来 的 客户 
入 列 + 
CO COC CGICD) 
第 一 位 客 
户 离开 队列 
出 列 二 
Co) 由 Taoo 
第 二 位 客 
户 离开 队列 
出 列 + 
二) 巴 TO 加 
图 1.3.2 一 个 典型 的 先进 先 出 队列 
1.3.1.6 下 压 栈 


下 压 栈 ( 或 简称 栈 ) 是 一 种 基于 后 进 先 出 
(LIFO ) 策略 的 集合 类 型 ， 如 图 1.3.3 所 示 。 当 
你 的 邮件 在 桌 上 放 成 一 合 时 ， 使 用 的 就 是 栈 。 新 
邮件 来 到 时 你 将 它们 放 在 最 上 面 ， 当 你 有 空 时 你 
会 一 封 一 封地 从 上 到 下 阅读 它们 。 现 在 人 们 应 付 
的 纸 质 品 比 以 前 少 得 多 ， 但 计算 机 上 的 许多 常用 
程序 遵循 相同 的 组 织 原则 。 例 如 ， 许 多 人 仍然 用 
栈 的 方式 存放 电子 邮件 一 一 在 收 信 时 将 邮件 压 和 人 
(push ) 最 顶端 ， 在 取信 时 从 最 项 端 将 它们 弹出 
(pop ), 且 第 一 封 一 定 是 最 新 的 邮件 ( 后 进 , 先 出 )。 
这 种 策略 的 好 处 是 我 们 能 够 及 时 看 到 感 兴趣 的 邮 
件 ， 坏 处 是 如 果 你 不 把 栈 清空 ， 某 些 较 早 的 邮件 
可 能 永远 也 不 会 被 阅读 。 你 在 网 上 冲浪 时 很 可 能 
会 遇 到 栈 的 另 一 个 例子 。 点 击 一 个 超 链 接 ， 浏 览 
器 会 显示 一 个 新 的 页 面 ( 并 将 它 压 人 一 个 栈 ) 。 
你 可 以 不 断 点 击 超 链接 并 访问 新 页 面 ， 但 总 是 可 
以 通过 点 击 “ 回 退 ” 按钮 重新 访问 以 前 的 页 面 (从 
栈 中 弹出 ) 。 栈 的 后 进 先 出 策略 正好 能 够 提供 你 
所 需要 的 行为 。 当 用 例 使 用 foreach 语句 迭代 遍 
历 栈 中 的 元 素 时 ， 元 素 的 处 理 顺序 和 它们 被 压 人 








public static int[] readInts(String 
name) 
{ 
In in = new In(name); 
Queue<Integer> q = new 
Queue<Integer>(); 
while (!in.isEmptyO)) 
q.enqueue(in. readInt(O)); 


int N = q.sizeO; 

int[] a = new int[N]; 

for (int 1 = 0; 1 < N; i++) 
a[i] = q.dequeueO; 

return a; 


Queue 的 用 例 
- 摆 文 件 \、 
新 到 的 文件 ( 灰 
push(<E 到 》 < 一 色 ) 放 在 顶端 
新 到 的 文件 ( 黑 
push (< ) < 一 色 ) 放 在 顶端 
从 顶端 取 走 
-= pop() 和 黑色 的 文件 
一 
从 顶端 取 走 
= popO < 一 灰色 的 文件 


图 1.3.3 下 压 栈 的 操作 
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的 顺序 正好 相反 。 在 应 用 程序 中 使 用 栈 迭 代 器 的 - 
A public class Reverse 
一 个 典型 原因 是 在 用 集合 保存 元 素 的 同时 颠倒 它 。 { 
们 的 相对 顺序 。 例 如 ， 右 侧 的 用 例 Reverse 将 a static void main(String[] args) 


会 把 标准 输入 中 的 所 有 整数 逆序 排列 ， 同 样 它 也 Stack<Integer> stack; 

i tack = new Stack<ll OF 
无 需 预 先知 道 整数 的 多 少 。 在 计算 机 领域 ， 栈 具 i 人 
有 基础 而 深远 的 影响 ， 下 一 节 我 们 会 仔细 研究 一 stack.push(StdIn. readInt O)); 
个 例子 ， 以 说 明 栈 的 重要 性 。 for Cint 1 : stack) 
1.3.1.7 算术 表达 式 求 值 Stdout.println(i); 


我 们 要 学 习 的 另 一 个 栈 用 例 同 时 也 是 展示 泛 。 } 
型 的 应 用 的 一 个 经 典 例子 。 我 们 在 1.1 节 中 最 初 
学 习 的 儿 个 程序 之 一 就 是 用 来 计算 算术 表达 式 的 Stack 的 用 例 
值 的 ， 例 如 : 

CLC ss)}) 

如 果 将 4 乘 以 5， 把 3 加 上 2， 取 它们 的 积 然后 加 1， 就 得 到 了 101。 但 Java 系统 是 如 何 完成 
这 些 运算 的 呢 ? 不 需要 研究 Java 系统 的 构造 细节 , 我 们 也 可 以 编写 一 个 Java 程序 来 解决 这 个 问题 。 
它 接受 一 个 输入 字符 串 ( 表达 式 ) 并 输出 表达 式 的 值 。 为 了 简化 问题 ， 首 先 来 看 一 下 这 份 明确 的 递 
归 定 义 : 算术 表达 式 可 能 是 一 个 数 ， 或 者 是 由 一 个 左 括号 、 一 个 算术 表达 式 、 一 个 运算 符 、 另 一 个 
算术 表达 式 和 一 个 右 括号 组 成 的 表达 式 。 简 单 起 见 ， 这 里 定义 的 是 未 省 略 括 号 的 算术 表达 式 ， 它 明 
确 地 说 明了 所 有 运算 符 的 操作 数 一 你 可 能 更 熟悉 形 如 1 + 2 * 3 的 表达 式 ， 省 略 了 括号 ， 而 采 
用 优先 级 规则 。 我 们 将 要 学 习 的 简单 机 制 也 能 处 理 优先 级 规则 ， 但 在 这 里 我 们 不 想 把 问题 复杂 化 。 
为 了 突出 重点 ， 我 们 支持 最 常见 的 二 元 运算 符 *、+、- 和 /， 以 及 只 接受 一 个 参数 的 平方 根 运算 符 
sqrt。 我 们 也 可 以 轻易 支持 更 多 数量 和 种 类 的 运算 符 来 计算 多 种 大 家 部 悉 的 数学 表达 式 ， 包 括 三 角 
函数 、 指 数 和 对 数 丽 数 。 我 们 的 重点 在 于 如 何 解析 由 括号 、 运 算 符 和 数字 组 成 的 字符 串 ， 并 按照 正 

字 完 成 各 种 初级 算术 运算 操作 。 如 何 才能 够 得 到 一 个 ( 由 字符 串 表示 的 ) 算 术 表达 式 的 值 呢 ? 
E.W.Dijkstra 在 20 世纪 60 年 代 发 明了 一 个 非常 简单 的 算法 ， 用 两 个 栈 (一 个 用 于 保存 运算 符 ， 一 
个 用 于 保存 操作 数 ) 完成 了 这 个 任务 ， 其 实现 过 程 见 下 页 ， 求 值 算法 的 轨迹 如 图 1.3.4 所 示 。 

表达 式 由 括号 、 运 算 符 和 操作 数 (数字 ) 组 成 。 我 们 根据 以 下 4 种 情况 从 左 到 右 逐 个 将 这 些 实 
体 送信 栈 处 理 : 

口 将 操作 数 压 人 操作 数 栈 ; 

口 将 运算 符 压 和 运算 符 栈 ; 

口 忽略 左 括号 ; 

口 在 过 到 右 括号 时 ， 弹 出 一 个 运算 符 ， 弹 出 所 需 数量 的 操作 数 ， 并 将 运算 符 和 操作 数 的 运算 结 

果 压 人 操作 数 栈 。 

在 处 理 完 最 后 一 个 右 括号 之 后 ， 操 作 数 栈 上 只 会 有 一 个 值 ， 它 就 是 表达 式 的 值 。 这 种 方法 乍 一 
看 有 些 难以 理解 ， 但 要 证 明 它 能 够 计算 得 到 正确 的 值 很 简单 : 每 当 算法 遇 到 一 个 被 括号 包围 并 由 一 
个 运算 符 和 两 个 操作 数组 成 的 子 表达 式 时 ， 它 都 将 运算 符 和 操作 数 的 计算 结果 压 和 操作 数 栈 。 这 样 
的 结果 就 好 像 在 输入 中 用 这 个 值 代 蔡 了 该 子 表达 式 ， 因 此 用 这 个 值 代替 子 表达 式 得 到 的 结果 和 原 表 
达 式 相同 。 我 们 可 以 反复 应 用 这 个 规律 并 得 到 一 个 最 终 值 。 例 如 ， 用 该 算法 计算 以 下 表达 式 得 到 的 
结果 都 是 相同 的 
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上 一 页 中 的 Evaluate 类 是 该 算法 的 一 个 实现 。 这 有 段 代码 是 一 个 简单 的 “解释 器 ”: 一 个 能 够 
解释 给 定 字符 串 所 表达 的 运算 并 计算 得 到 结果 的 程序 。 


Dijkstra 的 双 栈 算术 表达 式 求 值 算法 


public class Evaluate 





public static void main(String[] args) 


Stack<String> ops = new Stack<String>O); 
Stack<Double> vals = new Stack<Double>O; 
while (!StdIn.isEmpty()) 
{ // 读 取 字符 ， 如 果 是 运算 符 则 压 入 栈 
String s = StdIn.readString(); 
if (s.equals("(". 
else if (s.equals(", 
else if (s.equals 
else if (s.equals ops.push(s); 
else if (s.equals ops.push(s); 
else if (s.equals rt")) ops.push(s); 
else if (s.equa 
{ // 如 果 字符 为 


ops.pushCs); 
ops.push(s); 





")) 
弹出 运算 符 和 操作 数 ， 计 算 结果 并 压 入 栈 


String op = ops.pop(); 
double v = vals.popO; 


v= vals.pop() + Vi 
v= vals.pop() - vi 
v= vals.popO * vi 





v= vals.popO / vi; 

else if (op.equals("sqrt")) v = Math.sqrt(v); 
vals.push(v); 

】 // 如 果 字 符 喇 非 运 算 符 也 不 是 括号 ， 将 它 作为 double 值 压 入 本 

else vals.push(Double.parseDouble(s)); 


StdOut.print1n(vals .pop()); 
} 
这 段 Stack 的 用 例 使 用 了 两 个 栈 来 计算 表达 式 的 值 。 它 展示 了 一 种 重要 的 计算 模型 将 一 个 字符 
串 解释 为 一 段 程序 并 执行 该 程序 得 到 结果 。 有 了 泛 型 ， 我 们 只 需 实现 Stack 一 次 即 可 使 用 String 值 


的 栈 和 Double 值 的 栈 。 简 单 起 见 ， 这 段 代码 假设 表达 式 没有 省 略 任何 括号 ， 数 字 和 字符 均 以 空白 字符 
相隔 。 


% java Evaluate 








COT) 

101.0 

% java Evaluate 

(C1+sqrt(5.0))/2.0) 
129 1.618033988749895 
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Ai 左 括号 : 忽略 

(1+((2+3)*(4*5))) 

操作 数 : 压 人 操作 数 栈 
1+((2+3)*(4*5))) 

运算 符 ， 压 人 运算 符 栈 
+((2+3)*(4*5))) 
(C2+3)*(4*5))) 
(2+3)*(4*5))) 
2+3)*(4*5))) 
+3)*(4*5))) 


3)*C4*5))) 
右 括号 :弹出 运算 符 
J 和 操作 数 ， 压 入 结果 
)*C4*5))) 


*(4*5))) 
(4*5))) 
4*5))) 
*5))) 
5))) 

))) 

») 


) 


图 1.3.4 Dijkstra 的 双 栈 算术 表达 式 求 值 算法 的 轨迹 


1.3.2 ”集合 类 数据 类 型 的 实现 


在 讨论 Bag、Stack 和 Queue 的 实现 之 前 ， 我 们 会 先 给 出 一 个 简单 而 经 典 的 实现 ， 然 后 讨论 它 


的 改进 并 得 到 表 1.3.1 中 的 API 的 所 有 实现 。 
1.3.2.1 定 容 栈 


作为 热身 ， i 如 表 1.3.2 所 示 。 它 的 


API 和 Stack 的 API 有 所 不 同 : 


只 能 处 理 String 值 ， 它 要 求 用 例 指定 一 个 容量 且 不 支持 迭代 。 
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实现 一 份 API 的 第 一 步 就 是 选择 数据 的 表示 方式 。 对 于 FixedCapacityStackOfStrings， 我 们 显 
然 可 以 选择 String 数组 。 由 此 我 们 可 以 得 到 表 1.3.2 中 底部 的 实现 
(每 个 方法 都 只 有 一 行 ) 。 它 的 实例 变量 为 一 个 用 于 保存 栈 中 的 元 素 的 数组 a[] ， 和 一 个 用 于 保存 
栈 中 的 元 素数 量 的 整数 N。 要 删除 一 个 元 素 ， 我 们 将 N 减 1 并 返回 a[N] 。 要 添加 一 个 元 素 我 们 将 





a[N] 设 为 新 元 素 并 将 N 加 1。 这 些 操作 能 够 保证 以 下 性 质 : 


表 1.3.2 一 种 表示 定 容 字符 串 栈 的 抽象 数据 类 型 


它 已 经 是 简单 得 不 能 再 简单 了 





API public class FixedCapacityStackOfStrings 





FixedCapacityStackOfStrings(int cap) 


创建 一 个 容量 为 cap 的 空 栈 








void push(String item) 添加 一 个 字符 串 
String popO 删除 最 近 添加 的 字符 中 
boolean isEmptyO) 栈 是 否 为 空 
int sizeO) 栈 中 的 字符 串 数量 
测试 用 例 public static void main(String[] args) 
{ 
FixedCapacityStackOfStrings s; 
5 = new FixedCapacityStackOfStrings(100); 
while (!StdIn.isEmptyO) 
{ 
String item = StdIn.readString(); 
if (!item.equals )) 
Ss.push(item); 
else if (!s.isEmpty()) StdOut.print(s.pop() + " "); 
} 
StdOut.printIn("(" + s.size() + " left on stack)"); 
} 
使 用 方法 % more tobe.txt 
to be or not to - be - - that - - - is 
% java FixedCapacityStackOfStrings < tobe.txt 
to be not that or be (2 left on stack) 
数据 类 型 的 实现 


public class FixedCapacityStackOfStrings 
{ 


private String[] a; // stack entries 
private int N; // size 
public FixedCapacityStackOfStrings(int cap) 
{ a=new String[cap]; } 
public boolean isEmptyO) { return N 一 0; } 
public int size() { return N; } 
public void push(String item) 
{ alN++] = item; } 
public String popO) 
{ return a[--N]; } 

3 
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口 数组 中 的 元 素 顺 序 和 它们 被 插 。 表 1.3.3 FixedCapacityStackOfStrings 的 测试 用 例 的 轨迹 





入 的 顺序 相同 ; Sidin StdOut a[] 
口 当 N 为 0 时 栈 为 空 ; (push) (pop) 0 1 2 3 4 
口 栈 的 顶部 位 于 a[N-1] ( 如 果 栈 9 
非 空 ) 。 避 站 
和 以 前 一 样 ， 用 恒等式 的 方式 思 or 2 
考 这 些 条 件 是 检验 实现 正常 工作 的 最 not 4 to be or not 
简单 的 方式 。 请 你 务必 完全 理解 这 个 。 to 5 to be or not to 
实现 。 做 到 这 一 点 的 最 好 方法 是 检验 。 5。 上 下 全 
一 系列 操作 中 栈 内 容 的 轨迹 , 如 表 1.3.3 be 4 to be or not 
所 示 。 测 试用 例会 从 标准 输入 读 取 多 3 not 3 to be or 
个 字符 串 并 将 它们 压 入 一 个 栈 ， 当 过 that 4 to be or that 
到 -时 它 会 将 栈 的 内 容 弹 出 并 打印 结 。 ee 
果 。 这 种 实现 的 主要 性 能 特点 是 push 和 be 1 to 
和 pop 操作 所 需 的 时 间 独 立 于 栈 的 长 is 2 to is 


度 。 许 多 应 用 会 因为 这 种 简洁 性 而 选 
择 它 。 但 几 个 缺点 限制 了 它 作为 通用 工具 的 潜力 ， 我 们 要 改进 的 也 是 这 一 点 。 经 过 一 些 修改 (以 及 
Java 语言 机 制 的 一 些 帮助 ) ， 我 们 就 能 给 出 一 个 适用 性 更 加 广泛 的 实现 。 这 些 努力 是 值得 的 ， 因 为 [132 
这 个 实现 是 本 书 中 其 他 许多 更 强大 的 抽象 数据 类 型 的 模板 。 133 
1.3.2.2 泛 型 

FixedCapacityStackOfStrings 的 第 一 个 缺点 是 它 只 能 处 理 String 对 象 。 如 果 需 要 一 
个 double 值 的 栈 ， 你 就 需要 用 类 似 的 代码 实现 另 一 个 类 ， 也 就 是 把 所 有 的 String 都 替换 为 
double。 这 还 算 简 单 ， 但 如 果 我 们 需要 Transaction 类 型 的 栈 或 者 Date 类 型 的 队列 等 ， 情 况 就 
很 琼 手 了 。 如 1.3.1.1 节 的 讨论 所 示 ，Java 的 参数 类 型 ( 泛 型 ) 就 是 专门 用 来 解决 这 个 问题 的 ， 而 且 
我 们 也 看 过 了 几 个 用 例 的 代码 ( 请 见 1.3.1.4 节 、1.3.1.5 节 、1.3.1.6 节 和 1.3.1.7 节 ) 。 但 如 何 才能 
实现 一 个 泛 型 的 栈 呢 ? 表 1.3.4 中 的 代码 展示 了 实现 的 细节 。 它 实现 了 一 个 FixedCapacityStack 
类 ， 该 类 和 FixedCapacityStackOfStrings 类 的 区 别 仅 在 于 加 粗 部 分 的 代码 一 一 我 们 把 所 有 的 
String 都 替换 为 Item ( 一 个 地 方 除 外 ,会 在 稍 后 讨论 ) 并 用 下 面 这 行 代码 声明 了 该 类 : 

public class FixedCapacityStack<Item> 

Item 是 一 个 类 型 参数 ， 用 于 表示 用 例 将 会 使 用 的 某 种 具体 类 型 的 象征 性 的 占 位 符 。 
可 以 将 FixedCapacityStack<Item> 理解 为 其 种 元 素 的 栈 ， 这 正 是 我 们 想 要 的 。 在 实现 
FixedCapacityStack 时 ， 我 们 并 不 知道 Item 的 实际 类 型 ， 但 用 例 只 要 能 在 创建 栈 时 提供 具体 的 
数据 类 型 ， 它 就 能 用 栈 处理 任 意 数据 类 型 。 实 际 的 类 型 必须 是 引用 类 型 ， 但 用 例 可 以 依靠 自动 装 箱 
将 原始 数据 类 型 转换 为 相应 的 封装 类 型 。Java 会 使 用 类 型 参数 Ttem 来 检查 类 型 不 匹配 的 错误 一 一 
尽管 具体 的 数据 类 型 还 不 知道 ,赋予 Item 类 型 变量 的 值 也 必须 是 Item 类 型 的 ， 等 等 。 在 这 里 有 
一 个 细节 非常 重要 : 我 们 希望 用 以 下 代码 在 FixedCapacityStack 的 构造 函数 的 实现 中 创建 一 个 泛 
型 的 数组 : 


a = new Item[cap]; 


由 于 某 些 历史 和 技术 原因 ( 不 在 本 书 讲解 范围 之 内 ) ,创建 泛 型 数组 在 Java 中 是 不 允许 的 。 我 
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们 需要 使 用 类 型 转换 : 
a = (Item[]) new Object[cap]; 
这 段 代码 才能 够 达到 我 们 所 期 望 的 效果 ( 但 Java 编译 器 会 给 出 一 条 警告 ， 不 过 可 以 名 略 它 ) ， 
我 们 在 本 书 中 会 一 直 使 用 这 种 方式 (Java 系统 库 中 类 似 抽象 数据 类 型 的 实现 中 也 使 用 了 相同 的 方式 )。 
表 1.3.4 ”一 种 表示 泛 型 定 容 栈 的 抽象 数据 类 型 
API public class FixedCapacityStack<Item> 














FixedCapacityStack(int cap) 创建 一 个 容量 为 cap 的 空 栈 
void push(Item item) 添加 一 个 字符 串 
Item popO) 删除 最 近 添 加 的 字符 串 
boolean isEmptyO) 栈 是 否 为 
int sizeO 栈 中 的 元 素数 量 





测试 用 例 public static void main(String[] args) 
{ 


FixedCapacityStack<String> s; 
S$ = new FixedCapacityStack<String> (100); 
while (!StdIn.isEmpty()) 
{ 

String item = StdIn. readStringO); 

if (litem.equals("-")) 

Ss.push(item); 
else if (!s.isEmpty()) Stdout.printCs.pcpO + " "); 


} 
StdOut.printin("(" + s.size() + " left on stack)"); 


% more tobe.txt 
全 及 尖 to be or not to - be - - that - - -is 
% java FixedCapacityStack < tobe.txt 
to be not that or be (2 left on stack) 


数据 类 型 的 实现 public class FixedCapacityStack<Item> 
{ 


private Item[] ai // stack entries 
private int N; // size 
public FixedCapacityStack(int cap) 
{ a= (Item[]) new Object[cap]; } 
public boolean isEmptyCO { return N == 0; } 
public int sizeO { return N; } 
public void pushCItem item) 
{ alN++] = item; } 
public Item pop() 
{ return a[--N]; } 

了 
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1.3.2.3 ”调整 数组 大 小 
选择 用 数组 表示 栈 内 容 意 味 着 用 例 必须 预先 估计 栈 的 最 大 容量 。 在 Java 中 ， 数 组 一 旦 创建 ， 
其 大 小 是 无 法 改变 的 ， 因 此 栈 使 用 的 空间 只 能 是 这 个 最 大 容量 的 一 部 分 。 选 择 大 容量 的 用 例 在 
栈 为 空 或 几乎 为 空 时 会 浪费 大 量 的 内 存 。 例 如 ， 一 个 交易 系统 可 能 会 涉及 数 十 亿 笔 交易 和 数 千 
个 交易 的 集合 。 即 使 这 种 系统 一 般 都 会 限制 每 笔 交 易 只 能 出 现在 一 个 集合 中 ， 但 用 例 必须 保证 
所 有 集合 都 有 能 力 保存 所 有 的 交易 。 另 一 方面 ， 如 果 集 合 变 得 比 数组 更 大 那么 用 例 有 可 能 溢出 。 
为 此 ，pushQ 方法 需要 在 代码 中 检测 栈 是 否 已 满 ， 我 们 的 API 中 也 应 该 含有 一 个 isFu110 方 
法 来 允许 用 例 检 测 栈 是 否 已 满 。 我 们 在 此 省 略 了 它 的 实现 代码 ， 因 为 我 们 希望 用 例 从 处 理 栈 已 
满 的 问题 中 解脱 出 来 ， 如 我 们 的 原始 Stack API 所 示 。 因 此 ， 我 们 修改 了 数组 的 实现 ， 动 态 调 
整数 组 a[] 的 大 小 ,使 得 它 既 足 以 保存 所 有 元 素 ， 又 不 至 于 浪费 过 多 的 空间 。 实 际 上 ， 完 成 这 
些 目标 非常 简单 。 首 先 ， 实 现 一 个 方法 将 栈 移动 到 另 一 个 大 小 不 同 的 数组 中 
private void resize(int max) 
{ // 将 大 小 为 N < = max 的 栈 移动 到 一 个 新 的 大 小 为 max 的 数组 中 
Item[] temp = (Item[]) new Object[max]; 
for (int i = 0; 1 < N; i++) 
temp[i] = a[i]; 
a = temp; 


} 

现在 ,在 push() 中 ,检查 数组 是 否 太 小 。 具 体 来 说 ， 我 们 会 通过 检查 栈 大 小 N 和 数组 大 小 
a.1ength 是 否 相等 来 检查 数组 是 否 能 够 容纳 新 的 元 素 。 如 果 没 有 多 余 的 空间 ， 我 们 会 将 数组 的 
长 度 加 倍 。 然 后 就 可 以 和 从 前 一 样 用 a[N++] = item 插入 新 元 素 了 : 


public void push(String item) 

{ // 将 元 素 压 入 栈 顶 
if (N == a.length) resize(2*a.length); 
a[N++] = item; 


类 似 ， 在 popO 中 ， 首 先 删除 栈 顶 的 元 素 ， 然 后 如 果 数 组 太 大 我 们 就 将 它 的 长 度 减 半 。 只 
要 稍 加 思考 ， 你 就 明白 正确 的 检测 条 件 是 栈 大 小 是 否 小 于 数组 的 四 分 之 一 。 在 数组 长 度 被 减 半 
之 后 ， 它 的 状态 约 为 半 满 ， 在 下 次 需要 改变 数组 大 小 之 前 仍然 能 够 进行 多 次 push() 和 popO) 
操作 。 
public String popO 
人 { // 从 栈 项 删除 元 素 
String item = a[--N]; 
a[N] = nu11; // 避免 对 象 游离 (请 见 下 节 ) 
if (N > 0 && N == a.length/4) resize(a.length/2); 
return item; 


了 

在 这 个 实现 中 ， 栈 永远 不 会 溢出 ， 使 用 率 也 永远 不 会 低 于 四 分 之 一 〈 除非 栈 为 空 ， 那 种 情 
况 下 数组 的 大 小 为 1 ) 。 我 们 会 在 1.4 节 中 详细 分 析 这 种 实现 方法 的 性 能 特点 。 

push《) 和 popQ 操作 中 数组 大 小 调整 的 轨迹 见 表 1.3.5。 
1.3.2.4 对象 游离 

Java 的 垃圾 收集 策略 是 回收 所 有 无 法 被 访问 的 对 象 的 内 存 。 在 我 们 对 pop() 的 实现 中 , 被 
弹出 的 元 素 的 引用 仍然 存在 于 数组 中 。 这 个 元 素 实际 上 已 经 是 一 个 孤儿 了 一 一 它 永 远 也 不 会 再 
被 访问 了 ,但 Java 的 垃圾 收集 器 没 法 知道 这 一 点 ， 除 非 该 引用 被 覆盖 。 即 使 用 例 已 经 不 再 需要 
这 个 元 素 了 , 数组 中 的 引用 仍然 可 以 让 它 继续 存在 。 这 种 情况 ( 保存 一 个 不 需要 的 对 象 的 引用 ) 
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称 为 游离 。 在 这 里 ， 避 免 对 象 游离 很 容易 ， 只 需 将 被 弹出 的 数组 元 素 的 值 设 为 nu11 即 可 ， 这 将 履 
盖 无 用 的 引用 并 使 系统 可 以 在 用 例 使 用 完 被 弹出 的 元 素 后 回收 它 的 内 存 。 


表 1.3.5 一 系列 push() 和 pop() 操作 中 数组 大 小 调整 的 轨迹 























a[] 
push() popO N a.length 0 2 7 可 7 
0 名 null 
to 1 to 
be 2 2 be 
or 3 4 or null 
not 4 not 
to 5 8 to null null null 
- to 4 null 
be 5 be 
- be 4 nu11 
- not 3 nu11 
that 4 that 
- that 3 nu11 
- or 2 4 null null 
- be 1 2 null 
[37 is 2 is 
1.3.2.5 迭代 


本 节 开 头 已 经 提 过 ， 集 合 类 数据 类 型 的 基本 操作 之 一 就 是 ， 能 够 使 用 Java 的 foreach 语句 通 
过 迭代 遍历 并 处 理 集 合 中 的 每 个 元 素 。 这 种 方式 的 代码 既 清晰 又 简洁 ， 且 不 依赖 于 集合 数据 类 型 的 
具体 实现 。 在 讨论 选 代 的 实现 之 前 ， 我 们 先 看 一 段 能 够 打印 出 一 个 字符 串 集合 中 的 所 有 元 素 的 用 例 
代码 : 

Stack<String> collection = new Stack<String>O; 


for (String s : collection) 
StdOut.print1n(s); 


这 里 ，foreach 语句 只 是 while 语句 的 一 种 简写 方式 ( 就 好 像 for 语句 一 样 ) 。 它 本 质 上 和 
以 下 while 语句 是 等 价 的 : 
Iterator<String> i = collection.iterator(); 
while (i.hasNext()) 
{ 
String s = i.next(); 
StdOut.print1n(s); 


这 段 代码 展示 了 一 些 在 任意 可 迁 代 的 集合 数据 类 型 中 我 们 都 需要 实现 的 东西 : 
口 集合 数据 类 型 必须 实现 一 个 iterator() 方法 并 返回 一 个 Iterator 对 象 ; 
口 Iterator 类 必须 包含 两 个 方法 : hasNext()( 返回 一 个 布尔 值 ) 和 next()( 返回 集合 中 的 
一 个 泛 型 元 素 ) 。 
在 Java 中 ,我 们 使 用 接口 机 制 来 指定 一 个 类 所 必须 实现 的 方法 ( 请 见 1.2.5.4 节 ) 。 对 于 可 迭 
代 的 集合 数据 类 型 ，Java 已 经 为 我 们 定义 了 所 需 的 接口 。 要 使 一 个 类 可 迁 代 ， 第 一 步 就 是 在 它 的 声 
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明 中 加 入 implements Iterable<Item>， 对 应 的 接口 ( 即 java.lang.Iterable ) 为 : 

public interface Iterable<Item> 

Iterator<Item> iterator(O); 

} 

然后 在 类 中 添加 一 个 方法 iteratorQ 并 返回 一 个 迭代 器 Iterator<Item>。 和 迭代 器 都 
是 泛 型 的 ， 因 此 我 们 可 以 使 用 参数 类 型 Ttem 来 帮助 用 例 遍 历 它们 指定 的 任意 类 型 的 对 象 。 
对 于 一 直 使 用 的 数组 表示 法 ， 我 们 需要 道 序 迁 代 遍历 这 个 数组 ， 因 此 我 们 将 迭代 器 命名 为 
ReverseArrayIterator， 并 添加 了 以 下 方法 : 


public Iterator<Item> iterator() 
{ return new ReverseArrayIterator(); } 


和 迭代 器 是 什么 ? 它 是 一 个 实现 了 hasNext() 和 next0 方法 的 类 的 对 象 ， 由 以 下 接口 所 定 
义 ( 即 javautilIterator ) : 
public interface Iterator<Item> 
{ 
boolean hasNext(); 
Item next(); 
void remove(); 
了 
尽管 接口 指定 了 一 个 remove() 方法 ， 但 在 本 书 中 remove() 方法 总 为 室 ， 因 为 我 们 希望 避 
免 在 迭代 中 穿插 能 够 修改 数据 结构 的 操作 。 对 于 ReverseArrayIterator， 这 些 方法 都 只 需要 
一 行 代码 ， 它 们 实现 在 栈 类 的 一 个 嵌 套 类 中 : 


private class ReverseArrayIterator implements Iterator<Item> 


private int 1 = N; 


public boolean hasNext() { return i > 0; } 
public Item next() { return a[--i]; } 
public void removeO { } 


} 

请 注意 ， 嵌 套 类 可 以 访问 包含 它 的 类 的 实例 变量 ， 在 这 里 就 是 a[] 和 N (这 也 是 我 们 使 用 幅 
套 类 实现 迭代 器 的 主要 原因 ) 。 从 技术 角度 来 说 ， 为 了 和 Iterator 的 结构 保持 一 致 ， 我 们 应 该 
在 两 种 情况 下 抛 出 异常 : 如 果 用 例 调用 了 removeQ 则 抛 出 UnsupportedOperationException， 
如 果 用 例 在 调用 next( 时 十 为 0 则 抛 出 NoSuchETementException 。 因 为 我 们 只 会 在 foreach 
语法 中 使 用 迭代 器 ， 这 些 情 况 都 不 会 出 现 ， 所 以 我 们 省 略 了 这 部 分 代码 。 还 剩 下 一 个 非常 重要 的 
细节 ， 我 们 需要 在 程序 的 开头 加 上 下 面 这 条 语句 : 

import java.util. Iterator; 

因为 ( 某 些 历史 原因 ) Iterator 不 在 java.lang 中 ( 尽管 Iterable 是 java.lang 的 一 部 分 ) 。 
现在 ,使 用 foreach 处 理 该 类 的 用 例 能 够 得 到 的 行为 和 使 用 普通 的 for 循环 访问 数组 一 样 ， 但 
它 无 知道 数据 的 表示 方法 是 数组 ( 即 实现 细节 ) 。 对 于 我 们 在 本 书 中 学 习 的 和 Java 库 中 所 包含 
的 所 有 类 似 于 集合 的 基础 数据 类 型 的 实现 ， 这 一 点 非常 重要 。 例 如 ， 我 们 无 需 改 变 任何 用 例 代 
码 就 可 以 随意 切换 不 同 的 表示 方法 。 更 重要 的 是 ， 从 用 例 的 角度 来 来 说 ， 无 需 知晓 类 的 实现 细 
节 用 例 也 能 使 用 迭代 。 

算法 1.1 是 Stack API 的 一 种 能 够 动态 改变 数组 大 小 的 实现 。 用 例 能 够 创建 任意 类 型 数据 
的 栈 ， 并 支持 用 例 用 foreach 语句 按照 后 进 先 出 的 顺序 迭代 访问 所 有 栈 元 素 。 这 个 实现 的 基础 
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是 Java 的 语言 特性 ,包括 Iterable 和 Iterator， 但 我 们 没有 必要 深究 这 些 特 性 的 细节 ， 因 为 代 
码 本 身 并 不 复杂 ， 并 且 可 以 用 做 其 他 集合 数据 类 型 的 实现 的 模板 。 

例如 ， 我 们 在 实现 Queue 的 API 时 ， 可 以 使 用 两 个 实例 变量 作为 索引 ， 一 个 变量 head 指向 队 
列 的 开头 ， 一 个 变量 tai1 指向 队列 的 结尾 ， 如 表 1.3.6 所 示 。 在 删除 一 个 元 素 时 ， 使 用 head 访问 
它 并 将 head 加 1; 在 插入 一 个 元 素 时 ， 使 用 tail 保存 它 并 将 tail 加 1。 如 果 某 个 索引 在 增加 之 
后 越过 了 数组 的 边界 则 将 它 重 置 为 0。 实现 检查 队列 是 否 为 空 、 是 否 充满 并 需要 调整 数组 大 小 的 细 
节 是 一 项 有 趣 而 又 实用 的 编程 练习 ( 请 见 练习 1.3.14 ) 。 


表 1.3.6 ”ResizingArrayQueue 的 测试 用 例 的 轨迹 











Stdin StdOut ar] 
N head tail 
(入 列 ) (出 列 ) 0 工 2 3 4 划 6 7 
5 0 5 to be or not to 
“ to 4 1 5 be or not to 
be 5 1 6 be or not to be 
- be 4 2 6 or not to be 
= or 3 3 6 not to be 


在 算法 的 学 习 中 ， 算 法 1.1 十 分 重要 ， 因 为 它 几 乎 (但 还 没有 ) 达到 了 任意 集合 类 数据 类 型 的 
实现 的 最 佳 性 能 : 

口 每 项 操作 的 用 时 都 与 集合 大 小 无 关 ; 

口 空间 需求 总 是 不 超过 集合 大 小 乘 以 一 个 常数 。 

ResizingArrayQueue 的 缺点 在 于 某 些 push() 和 popQ 操作 会 调整 数组 的 大 小 :这 项 操作 的 
耗 时 和 栈 大 小 成 正比 。 下 面 ， 我 们 将 学 习 一 种 克服 该 缺陷 的 方法 ， 使 用 一 种 完全 不 同 的 方式 来 组 织 
数据 。 


算法 1.1 下 压 (LIFO) 栈 (能 够 动态 调整 数组 大 小 的 实现 ) 


import java.util.Iterator; 
public class ResizingArrayStack<Item> implements Iterable<Item> 





{ 
private Item[] a = (Item[]) new 0bject[1]; // 栈 元 素 
private int N = 0; // 元 素数 量 
public boolean isEmpty() { return N == 0; } 
public int sizeO) { return Ni } 


private void resize(int max) 
{ // 将 栈 移动 到 一 个 大 小 为 max 的 新 堵 组 
Item[] temp = (Item[]) new Object[max]; 
for (int 1 = 0; i < N; i++) 
temp[i] = a[i]; 
a = temp; 
i 
public void push(Item item) 
人 // 将 元 素 添加 到 栈 顶 
if (N == a.length) resize(2*a.length); 
a[N++] = item; 


public Item pop() 
全 // 从 栈 顶 删 除 元 素 
Item item = a[--N]; 
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a[N] = nu11; // 进 免 对 象 游离 (请 见 1.32.4 节 ) 
if (N > 0 && N == a.length/4) resize(a.length/2); 
return item; 


public Iterator<Item> iterator() 
{ return new ReverseArrayIterator(); } 
private class ReverseArrayIterator implements Iterator<Item> 
长 // 支持 后 进 先 出 的 先 代 
private int 1 = Ni 
public boolean hasNext() { return i > 0; } 
public Item next() { return a[--i]; } 
public void remove() { 于 
} 
} 


这 份 泛 再 的 可 迭代 的 Stack API 的 实现 是 所 有 集合 类 抽象 数据 类 型 实现 的 模板 。 它 将 所 有 元 素 
保存 在 数组 中 ， 并 动态 调整 数组 的 大 小 以 保持 数组 大 小 和 栈 大 小 之 比 小 于 一 个 常数 。 





1.3.3 链表 

现在 我 们 来 学 习 一 种 基础 数据 结构 的 使 用 ， 它 是 在 集合 类 的 抽象 数据 类 型 实现 中 表示 数据 
的 合适 选择 。 这 是 我 们 构造 非 Java 直接 支持 的 数据 结构 的 第 一 个 例子 。 我 们 的 实现 将 成 为 本 书 
中 其 他 更 加 复杂 的 数据 结构 的 构造 代码 的 模板 。 所 以 请 仔细 阅读 本 节 ， 即 使 你 已 经 使 用 过 链表 。 


定义 。 链 表 是 一 种 递归 的 数据 结构 , 它 或 者 为 空 (nu11 ) ,或 者 是 指向 一 个 结 点 (node ) 的 引用 ， 
该 结 点 含有 一 个 泛 型 的 元 素 和 一 个 指向 另 一 条 链表 的 引用 。 


在 这 个 定义 中 ， 结 点 是 一 个 可 能 含有 任意 类 型 数据 的 抽象 实体 ， 它 所 包含 的 指向 结 点 的 应 
用 显示 了 它 在 构造 链表 之 中 的 作用 。 和 递 归程 序 一 样 ， 递 归 数 据 结构 的 概念 一 开始 也 令 人 哄 解 ， 
但 其 实 它 的 简洁 性 赋予 了 它 巨 大 的 价值 。 
1.3.3.1 结 点 记录 

在 面向 对 象 编程 中 ,实现 链表 并 不 困难 。 我 们 首先 用 一 个 岩 套 类 来 定义 结 点 的 抽象 数据 类 型 

private class Node 

: Item item; 


Node next; 
} 


一 个 Node 对 象 含有 两 个 实例 变量 ， 类 型 分 别 为 Ttem ( 参数 类 型 ) 和 Node。 我 们 会 在 需要 
使 用 Node 类 的 类 中 定义 它 并 将 它 标记 为 private， 因 为 它 不 是 为 用 例 准备 的 。 和 任意 数据 类 型 
一 样 ， 我 们 通过 new Node() 触发 (无 参数 的 ) 构造 函数 来 创建 一 个 Node 类 型 的 对 象 。 调 用 的 
结果 是 一 个 指向 Node 对 象 的 引用 ， 它 的 实例 变量 均 被 初始 化 为 nu11。Item 是 一 个 占 位 符 ， 表 
示 我 们 希望 用 链表 处 理 的 任意 数据 类 型 (我们 将 会 使 用 Java 的 泛 型 使 之 表示 任意 引用 类 型 ) ; 
Node 类 型 的 实例 变量 显示 了 这 种 数据 结构 的 链 式 本 质 。 为 了 强调 我 们 在 组 织 数 据 时 只 使 用 了 
Node 类 ， 我 们 没有 定义 任何 方法 且 会 在 代码 中 直接 引用 实例 变量 : 如 果 first 是 一 个 指向 某 个 
Node 对 象 的 变量 ， 我 们 可 以 使 用 first.item 和 first.node 访问 它 的 实例 变量 。 这 种 类 型 的 
类 有 时 也 被 称 为 记录 。 它 们 实现 的 不 是 抽象 数据 类 型 因为 我 们 会 直接 使 用 其 实例 变量 。 但 是 在 
我 们 的 实现 中 ，Node 和 它 的 用 例 代码 都 会 被 封装 在 相同 的 类 中 且 无 法 被 该 类 的 用 例 访问 ， 所 以 
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我 们 仍然 能 够 享受 数据 抽象 的 好 处 。 
1.3.3.2 ”构造 链表 


现在 ,根据 递归 定义 ,我 们 只 需要 一 个 Node 类 型 的 变量 就 能 表示 一 条 链表 ， 只 要 保证 它 的 值 


是 nu11 或 者 指向 另 


一 个 Node 对 象 目 该 对 象 的 next 域 指向 了 另 一 条 链表 即 可 。 例 如 ， 要 构造 一 条 


含有 元 素 to、be 和 or 的 链表 ， 我们 首先 为 每 个 元 素 创造 一 个 结 点 : 


Node first = new NodeO; 
Node second = new Node(); 
Node third = new Node(); 


并 将 每 个 结 点 的 item 域 设 为 所 需 的 值 ( 简单 起 见 ， 我 们 假设 在 这 些 例子 中 Item 为 String ) : 


first.item = "to"; 


second.item = 了 
third.item = "or"; 


然后 设置 next 域 来 构造 链表 : 
first.next = second; 
second.next = third; 


(注意; third.next 仍然 是 nu11， 即 对 
象 创建 时 它 被 初始 化 的 值 。 ) 结果 是 ，third 是 
一 条 链表 ( 它 是 一 个 结 点 的 引用 ， 该 结 点 指向 
nu11， 即 一 个 空 链表 ) ，second 也 是 一 条 链表 
( 它 是 一 个 结 点 的 引用 ， 且 该 结 点 含有 一 个 指向 
third 的 引用 ， 而 third 是 一 条 链表 ) ，first 
也 是 一 条 链表 ( 它 是 一 个 结 点 的 引用 ， 且 该 结 点 
含有 一 个 指向 second 的 引用 ， 而 second 是 一 
条 链表 ) 。 图 1.3.5 所 示 的 代码 以 不 同 的 顺序 完 
成 了 这 些 赋值 语句 。 

链表 表示 的 是 一 列 元 素 。 在 我 们 刚刚 考察 过 
的 例子 中 ，first 表示 的 序列 是 to、be、or。 我 
们 也 可 以 用 一 个 数组 来 表示 一 列 元 素 。 例 如 ， 可 
以 用 以 下 数组 表示 同一 列 字符 串 : 

String[] s = { “to", "be", 
不 同 之 处 在 于 ， 在 链表 中 向 序列 插入 元 素 或 是 从 
序列 中 删除 元 素 都 更 方便 。 下 面 ， 我 们 来 学 习 完 
成 这 些 任务 的 代码 。 





"or"” }; 


Node first = new Node(); 
first.item = "to"; 


first 


Node secund = new Node(); 
Ssecond.item = "be"; 
first.next = second; 


Tire second 


Ee 


Node third = new Node(); 
third.item = "or"; 
second.next = third; 


在 Ee ed 


因 二 和 


图 1.3.5 用 链接 构造 一 条 链表 


在 追踪 使 用 链表 和 其 他 链 式 结构 的 代码 时 ， 我 们 会 使 用 可 视 化 表示 方法 : 


口 用 长 方形 表示 对 象 ; 
口 将 实例 变量 的 值 写 在 长 方形 中 ; 
口 用 指向 被 引用 对 象 的 箭头 表示 引用 关系 。 


这 种 表示 方式 抓 住 了 链表 的 关键 特性 。 方 便 起见 ， 我 们 用 术语 链接 表示 对 结 点 的 引用 。 简 单 起 
见 ， 当 元 素 的 值 为 字符 串 时 ( 如 我 们 的 例子 所 示 ) ,我们 会 将 字符 串 写 在 长 方形 之 内 ,而 非 使 用 1.2 
节 中 所 讨论 的 更 准确 的 方式 表示 字符 串 对 象 和 字符 数组 。 这 种 可 视 化 的 表示 方式 使 我 们 能 够 将 注意 
力 集中 在 链表 上 。 
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1.3.3.3 在 表 头 插入 结 点 

首先 , 假设 你 希望 向 一 条 链表 中 插入 一 个 新 的 结 点 。 最 容易 做 到 这 一 点 的 地 方 就 是 链表 的 开头 。 
例如 ， 要 在 首 结 点 为 first 的 给 定 链表 开头 插入 字符 串 not, 我 们 先 将 全 rst 保存 在 o1dfirst 中 ， 
然后 将 一 个 新 结 点 赋予 first， 并 将 它 的 item 域 设 为 not，next 域 设 为 oldfirst。 以 上 过 程 如 
图 1.3.6 所 示 。 这 段 在 链表 开头 插入 一 个 结 点 的 代码 只 需要 几 行 赋值 语句 ， 所 以 它 所 需 的 时 间 和 链 
表 的 长 度 无 关 ， 
1.3.3.4 ”从 表 头 删除 结 点 

接 下 来 ， 假 设 你 希望 删除 一 条 链表 的 首 结 点 。 这 个 操作 更 简单 : 只 需 将 first 指向 first， 
next 即 可 。 一 般 来 说 你 可 能 会 希望 在 赋值 之 前 得 到 该 元 素 的 值 ， 因 为 一 旦 改变 了 first 的 值 ， 就 
再 也 无 法 访问 它 曾经 指向 的 结 点 了 。 曾 经 的 结 点 对 象 变 成 了 一 个 孤儿 ，Java 的 内 存 管理 系统 最 终 将 
回收 它 所 占用 的 内 存 。 和 以 前 一 样 ， 这 个 操作 只 含有 一 条 赋值 语句 ， 因 此 它 的 运行 时 间 和 链表 的 长 
度 无 关 。 此 过 程 如 图 1.3.7 所 示 








保存 指向 链表 的 链接 
Node oldfirst = firsti 
oldfirst 
, 
irst 一 = 记 E 
亡 寺 一 上 二 一 -Fo 
= 
创建 新 的 首 结 点 
first = new NodeO); 
oldfirst 
first-»| 
FE 
至 C= 
LI yd first = first.next; 
设置 新 结 点 中 的 实例 变量 first— J 二 
first.item = "not"; C= | mca 
first.next = oldfirst; Cu 
first 一 -Fe first 
rE 
= -一己 器 
图 1.3.6 在 链表 的 开头 插入 一 个 新 结 点 图 1.3.7 ”删除 链表 的 首 结 点 


1.3.3.5 在 表 尾 插入 结 点 

如 何 才能 在 链表 的 尾部 添加 一 个 新 结 点 ? 要 完成 这 个 任务 ， 我 们 需要 一 个 指向 链表 最 后 一 个 结 
点 的 链接 ， 因 为 该 结 点 的 链接 必须 被 修改 并 指向 一 个 含有 新 元 素 的 新 结 点 。 我 们 不 能 在 链表 代码 
中 草率 地 决定 维护 一 个 额外 的 链接 ， 因 为 每 个 修改 链表 的 操作 都 需要 添加 检查 是 否 要 修改 该 变量 
( 以 及 作出 相应 修改 ) 的 代码 。 例 如 ， 我 们 刚刚 讨论 过 的 删除 链表 首 结 点 的 代码 就 可 能 改变 指向 
链表 的 尾 结 点 的 引用 ， 因 为 当 链 表 中 只 有 一 个 结 点 时 ， 它 既是 首 结 点 又 是 尾 结 点 ! 另外 ， 这 段 代 
码 也 无 法 处 理 链表 为 空 的 情况 ( 它 会 使 用 空 链接 )。 类似 这 些 情况 的 细节 使 链表 代码 特别 难以 调试 。 
在 链表 结尾 插入 新 结 点 的 过 程 如 图 1.3.8 所 示 。 
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1.3.3.6 ”其 他 位 置 的 插入 和 删除 操作 保存 指向 尾 结 点 的 链接 
总 的 来 说 ， 我 们 已 经 展示 了 在 链表 中 Node oldlast = last; 
如 何 通 过 若干 指令 实现 以 下 操作 ， 其 中 我 oa 
们 可 以 通过 fi rst 链接 访问 链表 的 首 结 点 rm 一 下 
并 通过 1ast 链接 访问 链表 的 尾 结 点 : 一 省; 王 2 ra 
口 在 表 头 插入 结 点 ; 
口 从 表 头 出 除 结 点 ; 人 
Tast = NodeO; 
口 在 表 尾 插入 结 点 。 rt moto 
其 他 操作 ， 例 如 以 下 几 种 ， 就 不 那么 analast 


ia 
容易 实现 了 : Wi rm \ NS 
r= [5 
口 删除 指定 的 结 点 ; = i er 


口 在 指定 结 点 前 插入 一 个 新 结 











将 尾 链接 指向 新 结 点 
例如 ， 我 们 怎样 才能 删除 链表 的 尾 Diao eit 
结 点 呢 ? 1ast 链接 帮 不 上 忙 ， 因 为 我 们 wakes 二 
需要 将 链表 尾 结 点 的 前 一 个 结 点 中 的 链接 一 \ 
( 它 指向 的 正 是 1ast ) 值 改 为 nu11。 在 ICFP 


缺少 其 他 信息 的 情况 下 ， 唯 一 的 解决 办 法 
就 是 遍历 整 条 链表 并 找 出 指向 last 的 结 点 图 1.3.8 在 链表 的 结尾 插入 一 个 新 结 点 
(请 见 下 文 以 及 练习 1.3.19 ) 。 这 种 解决 
方案 并 不 是 我 们 想 要 的 ， 因 为 它 所 需 的 时 间 和 链表 的 长 度 成 正比 。 实 现任 意 插入 和 删除 操作 的 标准 
解决 方案 是 使 用 双向 链表 ， 其 中 每 个 结 点 都 含有 两 个 链接 ， 分 别 指向 不 同 的 方向 。 我 们 将 实现 这 些 
操作 的 代码 留 做 练习 ( 请 见 练习 1.3.31 ) 。 我 们 的 所 有 实现 都 不 需要 双向 链表 。 
1.3.3.7 遍历 

要 访问 一 个 数组 中 的 所 有 元 素 ， 我 们 会 使 用 如 下 代码 来 循环 处 理 a[] 中 的 所 有 元 素 : 

for (int 1 = 0; 1 < N; i++) 

和 


// 处 理 a[i] 


访问 链表 中 的 所 有 元 素 也 有 一 个 对 应 的 方式 : 将 循环 的 索引 变量 x 初始 化 为 链表 的 首 结 点 ， 然 
后 通过 x.item 访问 和 x 相关 联 的 元 素 ， 并 将 x 设 为 x.next 来 访问 链表 中 的 下 一 个 结 点 ， 如 此 反 
复 直到 x 为 nu11 为 止 ( 这 说 明 我 们 已 经 到 达 了 链表 的 结尾 ) 。 这 个 过 程 被 称 为 链表 的 遍历 ， 可 以 
用 以 下 循环 处 理 链表 的 每 个 结 点 的 代码 简洁 表达 ， 其 中 fi rst 指向 链表 的 首 结 点 : 


for (Node x = first; x != null; x = x.next) 


// 处 理 x.item 


这 种 方式 和 迭代 遍历 一 个 数组 中 的 所 有 元 素 的 标准 方式 一 样 自然 。 在 我 们 的 实现 中 ， 它 是 迭代 
器 使 用 的 基本 方式 ， 它 使 用 例 能 够 迭代 访问 链表 的 所 有 元 素 而 无 需 知道 链表 的 实现 细节 。 
1.3.3.8 ” 栈 的 实现 

有 了 这 些 预 备 知识 ， 给 出 我 们 的 Stack API 的 实现 就 很 简单 了 ， 如 94 页 的 算法 1.2 所 示 。 它 将 
栈 保存 为 一 条 链表 ， 栈 的 顶部 即 为 表 头 ， 实 例 变量 fi rst 指向 栈 顶 。 这 样 ， 当 使 用 push() 压 和 一 
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个 元 素 时 ， 我 们 会 按照 1.3.3.3 节 所 讨论 的 代码 将 该 元 素 添加 在 表 头 ; 当 使 用 pop() 删除 一 个 元 素 
时 ， 我 们 会 按照 1.3.3.4 节 讨论 的 代码 将 该 元 素 从 表 头 删除 。 要 实现 size() 方法 ， 我 们 用 实例 变量 
N 保存 元 素 的 个 数 ， 在 压 人 元 素 时 将 N 加 1， 在 弹出 元 素 时 将 N 减 1。 要 实现 isEmpty0 方法 ,只 
需 检 查 first 是 否 为 nu11 (或 者 可 以 检查 N 是 否 为 0) 。 该 实现 使 用 了 泛 型 的 Item 一 一 你 可 以 认 
为 类 名 后 的 <Item> 表示 的 是 实现 中 所 出 现 的 所 有 Item 都 会 蔡 换 为 用 例 所 提供 的 任意 数据 类 型 的 
名 称 ( 请 见 1.3.2.2 节 ) 。 我 们 暂时 省 略 了 关于 迭代 的 代码 并 将 它们 留 到 算法 1.4 中 继续 讨论 。 图 1.3.9 
显示 了 我 们 所 常用 的 测试 用 例 的 轨迹 ( 测试 用 例 代码 放 在 了 图 后 面 ) 。 链 表 的 使 用 达到 了 我 们 的 最 
优 设计 目标 : 

口 它 可 以 处 理 任意 类 型 的 数据 ; 

口 所 需 的 空间 总 是 和 集合 的 大 小 成 正比 ; 

口 操作 所 需 的 时 间 总 是 和 集合 的 大 小 无 关 。 


StdIn StdOut 


to 
be 图 一 田 
or 四 一 国 一 加 
not 图 一 国 一 国 一 加 
to 固 - 国 - 国 - 国 得 
: to 国 - 国 - 国 _ 辐 
| 因 一 国 - 国 一生 国 
- be 国 一 图 
本 mt 国名 -各 
that 图 一 图 一 百 一 加 
- that 胃 一 四 一 上 
- or 国 一 柯 
- be 一 一 


图 1.3.9 stack 的 开发 用 例 的 轨迹 
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public static void main(Stringf] args) 


世 /V 创建 一 个 栈 并 根据 StdIn 中 的 指示 压 入 或 弹出 字符 囊 
Stack<String> s - new Stack<String>(); 


while CIStdiIn, isEmptyO) 


String item = StdIn.readString()s 
if Clitem,equals("-")) 





dout. printint"( size() + " left on stack)"): 


Stack 的 测试 用 例 


这 份 实现 是 我 们 对 许多 算法 的 实现 的 原型 。 它 定义 了 链表 数据 结构 并 实现 了 供用 例 使 用 的 方法 
push() 和 popQ , 仅 用 了 少量 代码 就 取得 了 所 期 望 的 效果 。 算 法 和 数据 结构 是 相辅相成 的 ,在 本 例 中 ， 
算法 的 实现 代码 很 简单 ， 但 数据 结构 的 性 质 却 并 不 简单 ， 我 们 用 了 好 几 页 纸 来 说 明 这 些 性 质 。 这 种 
数据 结构 的 定义 和 算法 的 实现 的 相互 作用 很 常见 ， 也 是 本 书 中 我 们 对 抽象 数据 类 型 的 实现 重点 。 


算法 1.2 下 压 堆 栈 链 表 实 现 ) 


public class Stack<Item> implenen 








terable<Item: 


private Node first; // 栈 顶 ( 最近 添 加 的 元 素 ) 
private int N; // 元 素数 量 
private class Node 
{ // 定义 了 结 点 的 放大 类 
Item item; 
Node next; 


} 
public boolean isEmpty() { return first == null; } // 或 : N == 0 


public int size() { return N; } 
public void push(Item item) 
// 向 栈 项 派 加 元 素 


Node oldfirst = first; 
first = new NodeO; 
first.item = item; 
first.next = oldfirst; 
Nets 
和 和 
public Item pop() 
{。 // 从 栈 顶 删除 元 素 
Ttem item = first.item; 
first = first.next; 
Ns 
return item; 
} 
// iterator() 的 实现 请 见 算法 1.4 
// 测试 用 例 main() 的 实现 请 见 本 节 前 面部 分 
} % more tobe.txt 
tobeornotto-be--that---is 
这 份 泛 型 的 Stack 实现 的 基础 是 链表 数据 结构 。 Ak a 
Dy 6: 了 java Stack < tobe.txt 
它 可 以 用 于 创建 任意 数据 类 型 的 栈 。 要 支持 迁 代 , 请 。 to be not that or be (2 left on stack) 
添加 算法 1.4 中 为 Bag 数 据 类 型 给 出 的 加 粗 部 分 的 代码 。 
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1.3.3.9 队列 的 实现 

基于 链表 数据 结构 实现 Queue API 也 很 简单 ， 如 算法 1.3 所 示 。 它 将 队列 表示 为 一 条 从 最 早 插 
人 的 元 素 到 最 近 插 入 的 元 素 的 链表 ， 实 例 变 量 first 指向 队列 的 开头 ， 实 例 变量 1ast 指向 队列 的 
结尾 。 这 样 , 要 将 一 个 元 素 入 列 (enqueue() ) , 我 们 就 将 它 添加 到 表 尾 ( 请 见 图 1.3.8 中 讨论 的 代码 ， 
但 是 在 链表 为 空 时 需要 将 first 和 1ast 都 指向 新 结 点 ) ; 要 将 一 个 元 素 出 列 ( dequeue() ) ,我 
们 就 删除 表 头 的 结 点 ( 代码 和 Stack 的 pop() 方法 相同 ， 只 是 当 链表 为 空 时 需要 更 新 1ast 的 值 ) 。 
size() 和 isEmpty() 方法 的 实现 和 Stack 相同 。 和 Stack 一 样 ，Queue 的 实现 也 使 用 了 泛 型 参数 
Item。 这 里 我 们 省 略 了 支持 迭代 的 代码 并 将 它们 留 到 算法 1.4 中 继续 讨论 。 下 面 所 示 的 是 一 个 开发 
用 例 ， 它 和 我 们 在 Stack 中 使 用 的 用 例 很 相似 ， 它 的 轨迹 如 算法 1.3 所 示 。Queue 的 实现 使 用 的 教 
据 结构 和 Stack 相同 一 一 链表 ， 但 它 实现 了 不 同 的 添加 和 删除 元 素 的 算法 ， 这 也 是 用 例 所 看 到 的 后 
进 先 出 和 先进 后 出 的 区 别 所 在 。 和 刚才 一 样 ， 我 们 用 链表 达到 了 最 优 设计 目标 : 它 可 以 处 理 任意 类 
型 的 数据 ， 所 需 的 空间 总 是 和 集合 的 大 小 成 正比 ， 操 作 所 需 的 时 间 总 是 和 集合 的 大 小 无 关 。 卫 








public static void main(String[] args) 
人 // 创建 一 个 队列 并 操作 字符 事 入 列 或 出 列 


Queue<String> q = new Queue<String>(); 
while (!StdIn,isEmpty()) 
{ 
String item = StdIn.readStringO); 
if (litem.equals("-")) 


q.enqueue(item); 
else if (!q.isEmpty()) StdOut.print(q.dequeue() + " "); 


StdOut.printin("(" + q.size() + " left on queue)"); 





} 
Queue 的 测试 用 例 
% more tobe.txt 
tobeornotto-be--that---is 
% java Queue < tobe.txt 
to be or not to be (2 left on queue) 
算法 1.3 ”先进 先 出 队列 
public class Queue<Item> implements Tterable<Iten> 


{ 
private Node first; // 指向 最 早 添加 的 结 点 的 链接 
private Node last; // 指向 最 近 添加 的 结 点 的 链接 
private int Ni // 队列 中 的 元 素数 量 
private class Node 
{ // 定义 了 结 点 的 贱 套 类 


全 这 里 原 书 应 该 是 因为 版 面 原因 没有 使 用 列表 ,如 果 版 面 允 许可 以 使 用 和 Stack 部分 相同 的 列表 显示 这 三 个 目标 。 
一 一 详 者 注 
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Item item; 

Node next; 
} 
public boolean isEmpty() { return first 一 nul1; } // 或 : N == 0. 
public int sizeO) { return N; } 


public void enqueue(Item item) 

{ // 向 表 尾 添加 元 素 
Node oldlast = last; 
ast = new NodeO; 
1ast.item = item; 
Tast.next = null; 
if (isEmpty()) first = last; 
else oldlast.next = last; 
N+ts 

和 

public Item dequeue() 

{ // 从 表 头 删除 元 素 
Item item = first.item; 
first = first.next; 
if (isEmpty(O) 1ast = null; 
N--; 

ri item; 

// iterator() 的 实现 请 见 算法 1.4 

// 测试 用 例 main() 的 实现 请 见 前 面 

} 
这 份 泛 型 的 Queue 实现 的 基础 是 链表 数据 结构 。 它 可 以 用 于 创建 任意 数据 类 型 的 队列 。 要 支持 迁 代 ， 
请 添加 算法 1.4 中 为 Bag 数据 类 型 给 出 的 加 粗 部 分 的 代码 。 





Queue 的 开发 用 例 的 轨迹 如 图 1.3.10 所 示 。 

在 结构 化 存储 数据 集 时 ， 链 表 是 数组 的 一 种 重要 的 替代 方式 。 这 种 替代 方案 已 经 有 数 十 年 的 历 
史 。 事 实 上 ， 编 程 语言 历史 上 的 一 块 里 程 碑 就 是 MeCathy 在 20 世纪 50 年 代 发 明 的 LISP 语言 ， 而 
链表 则 是 这 种 语言 组 织 程序 和 数据 的 主要 结构 。 在 练习 中 你 会 发 现 ， 链 表 编程 也 会 遇 到 各 种 问题 ， 
且 调试 十 分 困难 。 在 现代 编程 语言 中 ， 安 全 指针 、 自 动 垃圾 回收 ( 请 见 1.2 节 答 疑 部 分 ) 和 抽象 数 
据 类 型 的 使 用 使 我 们 能 够 将 链表 处 理 的 代码 封装 在 若干 个 类 中 ， 正 如 本 文 所 述 。 
1.3.3.10 ”背包 的 实现 

用 链表 数据 结构 实现 我 们 的 Bag API 只 需要 将 Stack 中 的 push() 改名 为 addC) ， 并 去 掉 
pop() 的 实现 即 可 ， 如 算法 1.4 所 示 (也 可 以 用 相同 的 方法 实现 Queue， 但 需要 的 代码 更 多 ) 。 
在 这 份 实现 中 ,加 粗 部 分 的 代码 可 以 通过 遍历 链表 使 Stack 、Queue 和 Bag 变 为 可 迭代 的 。 对 
于 Stack， 链 表 的 访问 顺序 是 后 进 先 出 ; 对 于 Queue， 链 表 的 访问 顺序 是 先进 先 出 ; 对 于 Bag， 
它 正好 也 是 后 进 先 出 的 顺序 ， 但 顺序 在 这 里 并 不 重要 。 如 算法 1.4 中 加 粗 部 分 的 代码 所 示 ， 要 在 
集合 数据 类 型 中 实现 迭代 ， 第 一 步 就 是 要 添加 下 面 这 行 代码 ， 这 样 我 们 的 代码 才能 引用 Java 的 
Iterator 接口 : 


import java.util. Iterator; 
第 二 步 是 在 类 的 声明 中 添加 这 行 代码 ， 它 保证 了 类 必然 会 提供 一 个 iterator0 方法 : 


implements Iterable<Item> 
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StdIn StdOut 


to 

be 

or 国 一 一 一 格 
not 由 一 国 一 目 一 站 


to 


be 已 一 国 -- 国 -- 国 -下 


图 1.3.10 Queue 的 开发 用 例 的 轨迹 


iterator() 方法 本 身 只 是 简单 地 从 实现 了 Iterator 接口 的 类 中 返回 一 个 对 象 : 

public Iterator<Item> iterator() 

{ return new ListIterator(); } 

这 段 代码 保证 了 类 必然 会 实现 方法 hasNext() 、next() 和 remove() 供用 例 的 foreach 语 
法 使 用 。 要 实现 这 些 方法 ， 算 法 1.4 中 的 访 套 类 ListIterator 维护 了 一 个 实例 变量 current 
来 记录 链表 的 当前 结 点 。hasNext () 方法 会 检测 current 是 否 为 nu11，next0 方法 会 保存 当 139 
前 元 素 的 引用 ,将 current 变量 指向 链表 中 的 下 个 结 点 并 返回 所 保存 的 引用 。 154| 
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算法 1.4 背包 


import java.util.Iterator; 
public class Bag<Item> implements Iterable<Item> 
{ 

private Node first; // 链 表 的 首 结 点 

private class Node 

{ 





Item item; 
Node next; 

} 

public void add(Item item) 

{ // 和 Stack 的 push() 方法 完全 相同 
Node oldfirst = first; 
first = new Node(); 
first.item = item; 
first.next = oldfirst; 


public Iterator<Item> iterator() 
{ return new ListIterator(); } 
private class ListIterator implements Iterator<Item> 


private Node current = first; 
public boolean hasNext() 
{ return current != nul1; } 
public void remove() { } 
public Item next() 
{ 
Ttem item = current.item; 
current = current.next; 
return item; 


} 
bp 


这 份 Bag 的 实现 维护 了 一 条 链表 ， 用 于 保存 所 有 通过 addO) 添加 的 元 素 。size() 和 isEmpty() 方 
法 的 代码 和 Stack 中 的 完全 相同 ， 因 此 在 此 处 省 略 。 迁 代 器 会 遍历 链表 并 将 当前 结 点 保存 在 current 变 
量 中 。 我 们 可 以 将 加 粗 的 代码 添加 到 算法 1.1 和 算法 1.2 中 使 Stack 和 Queue 变 为 可 迭代 的 ， 因 为 它们 
背后 的 数据 结构 是 相同 的 ， 只 是 Stack 和 Queue 的 链表 访问 顺序 分 别 是 后 进 先 出 和 先进 先 出 而 已 。 








1.3.4 ”综述 


在 本 节 中 ， 我 们 所 学 习 的 支持 泛 型 和 和 迭代 的 背包 、 队 列 和 栈 的 实现 所 提供 的 抽象 使 我 们 能 够 编 
写 简洁 的 用 例 程序 来 操作 对 象 的 集合 。 深 入 理解 这 些 抽象 数据 类 型 非常 重要 ， 这 是 我 们 研究 算法 和 
数据 结构 的 开始 。 原 因 有 三 : 第 一 ， 我 们 将 以 这 些 数据 类 型 为 基石 构造 本 书 中 的 其 他 更 高 级 的 数据 
结构 ; 第 二 ， 它 们 展示 了 数据 结构 和 算法 的 关系 以 及 同时 满足 多 个 有 可 能 相互 冲突 的 性 能 目标 时 所 
面 对 的 挑战 ; 第 三 ， 我 们 将 要 学 习 的 若干 算法 的 实现 重点 就 是 需要 其 中 的 抽象 数据 类 型 能 够 支持 
对 对 象 集合 的 强大 操作 ， 这 些 实现 正 是 我 们 的 起 点 。 
数据 结构 

我 们 现在 拥有 两 种 表示 对 象 集合 的 方式 ， 即 数组 和 链表 ( 如 表 1.3.7 所 示 ) 。Java 内 置 了 数组 ， 
链表 也 很 容易 使 用 Java 的 标准 方法 实现 。 两 者 都 非常 基础 ， 常 常 被 称 为 顺序 存储 和 链 式 存储 。 在 本 
书后 面部 分 ， 我 们 会 在 各 种 抽象 数据 类 型 的 实现 中 将 多 种 方式 结 归并 扩展 这 些 基 本 的 数据 结构 。 其 
中 一 种 重要 的 扩展 就 是 各 种 含有 多 个 链接 的 数据 结构 。 例 如 ，3.2 节 和 3.3 节 的 重点 就 是 被 称 为 二 又 
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树 的 数据 结构 ， 它 由 含有 两 个 链接 的 结 点 组 成 。 另 一 个 重要 的 扩展 是 复合 型 的 数据 结构 : 我 们 可 以 
使 用 背包 存储 栈 , 用 队列 存储 数组 , 等 等 。 例如 , 第 4 章 的 主题 是 图 , 我 们 可 以 用 数组 的 背包 表示 它 。 
用 这 种 方式 很 容易 定义 任意 复杂 的 数据 结构 ， 而 我 们 重点 研究 抽象 数据 类 型 的 一 个 重要 原因 就 是 试 
图 控制 这 种 复杂 度 。 


表 1.3.7 基础 数据 结构 








数据 结构 优点 缺 点 
数组 通过 索引 可 以 直接 访问 任意 元 素 在 初始 化 时 就 需要 知道 元 素 的 数量 
链表 使 用 的 空间 大 小 和 元 素数 量 成 正比 需要 通过 引用 访问 任意 元 素 


我 们 在 本 节 中 研究 背包 、 队 列 和 栈 时 描述 数据 结构 和 算法 的 方式 是 全 书 的 原型 ( 本 书 中 的 数据 
结构 示例 见 表 1.3.8 ) 。 在 研究 一 个 新 的 应 用 领域 时 ， 我 们 将 会 按照 以 下 步骤 识别 目标 并 使 用 数据 抽 
象 解决 问题 : 

口 定义 API; 

口 根据 特定 的 应 用 场景 开发 用 例 代码 ; 

口 描述 一 种 数据 结构 ( 一 组 值 的 表示 ) ， 并 在 API 所 对 应 的 抽象 数据 类 型 的 实现 中 根据 它 定 

义 类 的 实例 变量 ; 

口 描述 算法 ( 实现 一 组 操作 的 方式 ) ， 并 根据 它 实现 类 中 的 实例 方法 ; 

口 分 析 算法 的 性 能 特 

在 下 一 节 中 ,我 们 会 详细 研究 最 后 一 步 ， 因 为 它 常 常 能 够 决定 哪 种 算法 和 实现 才 是 解决 现实 应 
用 问题 的 最 佳 选择 





表 1.3.8 本 书 所 给 出 的 数据 结构 举例 





数据 结构 章 节 抽象 数据 类 型 数据 表示 
父 链接 树 15 UnionFind 整 型 数组 
二 分 查找 树 2. 33 BST 含有 两 个 链接 的 结 点 
字符 串 5.1 String 数组 、 偏 移 量 和 长 度 
-又 堆 24 PQ 对 象 数组 
散 列表 ( 拉链 法 ) 3.4 SeparateChainingHashST ”链表 数组 
散 列 表 (线性 探测 法 ) 34 LinearProbingHashST 两 个 对 象 数组 
图 的 邻接 链表 41、 42 Graph Bag 对 象 的 数组 
单词 查找 树 52 TrieST 含有 链接 数组 的 结 点 
:向 单词 查找 树 53 TST 含有 三 个 链接 的 结 点 


图 答 经 


问 并 不 是 所 有 编程 语言 都 支持 泛 型 ， 甚 至 Java 的 早期 版 本 也 不 支持 。 有 其 他 替代 方案 吗 ? 

答 如 正文 所 述 ， 一 种 蔡 代 方法 是 为 每 种 类 型 的 数据 都 实现 一 个 不 同 的 集合 数据 类 型 。 另 一 种 方法 是 构 
造 一 个 Object 对 象 的 栈 ， 并 在 用 例 中 使 用 pop() 时 将 得 到 的 对 象 转换 为 所 需 的 数据 类 型 。 这 种 方 
式 的 问题 在 于 类 型 不 匹配 错误 只 能 在 运行 时 发 现 。 而 在 泛 型 中 ， 如 果 你 的 代码 将 错误 类 型 的 对 象 压 
入 栈 中 ， 比 如 这 样 : 








156 











100 第 1 章 基 础 








158, 











159 











Stack<Apple> stack = new Stack<Apple>(O); 
Apple a = new AppleO; 


Orange b = new orangeO; 

stack.pushCa); 

stack.pushCb) ; 。。。 // 编 评 时 错误 

会 得 到 一 个 编译 时 错误 : 

push(Apple) in Stack<Apple> cannot be applied to (Orange) 

能 够 在 编译 时 发 现 错误 足以 说 服 我 们 使 用 泛 型 

为 什么 Java 不 允许 泛 型 数组 ? 

专家 们 仍然 在 争论 这 一 点 。 你 可 能 也 需要 成 为 专家 才能 理解 它 ! 对 于 初学 者 ， 请 先 了 解 共 变数 组 
《covariant array ) 和 类 型 擦 除 ( type erasure ) 。 

如 何 才能 创建 一 个 字符 串 栈 的 数组 ? 

使 用 类 型 转换 ， 比 如 : 

Stack<String>[] a = (Stack<String>[]) new Stack[N]; 

警告 ,这 段 类 型 转换 的 用 例 代码 和 1.3.2.2 节 所 示 的 有 所 不 同 。 你 可 能 会 以 为 需要 使 用 Object 而 非 
Stack。 在 使 用 泛 型 时 ，Java 会 在 编译 时 检查 类 型 的 安全 性 ， 但 会 在 运行 时 抛弃 所 有 这 些 信息 。 因 
此 在 运行 时 语句 右 侧 就 变 成 了 Stack<0bject>[] 或 者 只 剩 下 了 Stack[] ， 因 此 我 们 必须 将 它们 转化 
为 Stack<String>[]。 

在 栈 为 室 时 调用 popQ 会 发 生 什么? 

这 取决 于 实现 。 对 于 我 们 在 算法 1.2 中 给 出 的 实现 ， 你 会 得 到 一 个 Nu11PointerException 异常 。 
对 于 我 们 在 本 书 的 网 站 上 给 出 的 实现 , 我 们 会 抛 出 一 个 运行 时 异常 以 帮助 用 户 定位 错误 。 一 般 来 说 ， 
在 应 用 广泛 的 代码 中 这 类 检查 越 多 越 好 。 

既然 有 了 链表 ， 为 什么 还 要 学 习 如 何 调整 数组 的 大 小 ? 

我 们 还 将 会 学 习 若 干 抽象 数据 类 型 的 示例 实现 , 它们 需要 使 用 数组 来 实现 一 些 链表 难以 实现 的 操作 。 
ResizingArrayStack 是 控制 它们 的 内 存 使 用 的 样板 。 

为 什么 将 Node 声明 为 嵌 套 类 ?7 为 什么 使 用 private ? 

将 Node 声明 为 私有 的 嵌 套 类 之 后 ,我们 可 以 将 Node 的 方法 和 实例 变量 的 访问 范围 限制 在 包含 它 的 
类 中 。 私 有 贿 套 类 的 一 个 特点 是 只 有 包含 它 的 类 能 够 直接 访问 它 的 实例 变量 ， 因 此 无 需 将 它 的 实例 
变量 声明 为 pub1ic 或 是 private。 专 业 背景 较 强 的 读者 注意 : 非 静态 的 典 套 类 也 被 称 为 内 部 类 ， 
因此 从 技术 上 来 说 我 们 的 Node 类 也 是 内 部 类 ， 尽 管 非 泛 型 的 类 也 可 以 是 静态 的 。 

当 我 输入 javac Stack.java 运行 算法 12 和 其 他 程序 时 ， 我 发 现 了 Stack.class 和 StackSNode.class 
两 个 文件 。 第 二 个 文件 是 做 什么 用 的 ? 

第 二 个 文件 是 为 内 部 类 Node 创建 的 。Java 的 命名 规则 会 使 用 $ 分 隔 外 部 类 和 内 部 类 。 

Java 标准 库 中 有 栈 和 队列 吗 ? 

有 ， 也 没有 。Java 有 一 个 内 置 的 库 ， 叫 做 javautiLStack， 但 你 需要 栈 的 时 候 请 不 要 使 用 它 。 它 新 增 
了 几 个 一 般 不 属于 栈 的 方法 ， 例 如 获取 第 i 个 元 素 。 它 还 允许 从 栈 底 添加 元 素 ( 而 非 栈 顶 ) ， 所 以 
它 可 以 被 当做 队列 使 用 ! 尽管 拥有 这 些 额 外 的 操作 看 起 来 可 能 很 有 用 ， 但 它们 其 实 是 累 效 。 我 们 使 
用 某 种 数据 类 型 不 仅仅 是 为 了 获得 我 们 能 够 想象 的 各 种 操作 ， 也 是 为 了 准确 地 指定 我 们 所 需要 的 操 
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作 。 这 么 做 的 主要 好 处 在 于 系统 能 够 防止 我 们 执行 一 些 意外 的 操作 。java.util.Stack 的 API 是 宽 接口 
的 一 个 典型 例子 ， 我 们 通常 会 极力 避免 出 现 这 种 情况 。 

问 ”是否 允许 用 例 向 栈 或 队列 中 添加 空 ( nu11 ) 元 素 ? 

答 “在 Java 中 实现 集合 类 数据 类 型 时 这 个 问题 是 很 常见 的 。 我 们 的 实现 ( 以 及 Java 的 栈 和 队列 库 ) 允许 
插入 nu11 值 。 

间 “如 果 用 例 在 迭代 中 调用 pushO 或 者 pop() ，Stack 的 迭代 器 应 该 怎么 办 ? 

答 ”作为 一 个 快速 出 错 的 迭代 器 ， 它 应 该 立即 抛 出 一 个 java.uti1.ConcurrentModifi-cationException 
异常 。 请 见 练习 1.3.50。 

问 我们 能 够 用 foreach 循环 访问 数组 吗 ? 

答 可 以 (尽管 数组 没有 实现 Iterable 接口 ) 。 以 下 代码 将 会 打印 所 有 命令 行 参数 : 


public static void main(String[] args) 
{ for (String 5 : args) StdOut.printIn(s); } 


问 我们 能 够 用 foreach 循环 访问 字符 串 吗 ? 

答 不 行 ，String 没有 实现 Iterable 接口 。 

问 为 什么 不 实现 一 个 单独 的 Collection 数据 类 型 并 实现 添加 元 素 、 删 除 最 近 插 入 的 元 素 、 删 除 最 早 
择 入 的 元 素 、 删 除 随机 元 素 、 和 迭代 、 返 回 集合 元 素数 量 和 其 他 我 们 可 能 需要 的 方法 ?这样 我 们 就 能 
在 一 个 类 中 实现 所 有 这 些 方法 并 可 以 应 用 于 各 种 用 例 。 

答 ”再 次 强调 一 遍 ， 这 又 是 一 个 宽 接口 的 例子 。Java 在 它 的 java.uti1.ArrayList 和 java.uti1.LinkedList 
类 的 实现 中 犯 过 这 样 的 错误 。 避 免 使 用 它们 的 一 个 原因 是 这 样 无 法 保证 高 效 实现 所 有 这 些 方 法 。 
在 本 书 中 ， 我 们 总 是 以 API 作为 设计 高 效 算法 和 数据 结构 的 起 点 ， 而 设计 只 含有 几 个 操作 的 接口 
显然 比 设计 含有 许多 操作 的 接口 更 简单 。 我 们 坚持 罕 接 口 的 另 一 个 原因 是 它们 能 够 限制 用 例 的 行 
为 ， 这 将 使 用 例 代码 更 加 易 慌 。 如 果 一 段 用 例 代码 使 用 Stack<String>， 而 另 一 段 用 例 代码 使 用 
Queue<Transaction>， 我 们 就 可 以 知道 后 进 先 出 的 访问 顺序 对 于 前 者 很 重要 ， 而 先进 先 出 的 访问 顺 
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图 练习 


1.3.1 为 FixedCapacityStackOfStrings 添加 一 个 方法 isFu11()。 
1.3.2 给 定 以 下 输入 ，java Stack 的 输出 是 什么 ? 








it was - the best - of times - ~- - it was - the - - 
1.3.3 “假设 某 个 用 例 程序 会 进行 一 系列 人 栈 和 出 栈 的 混合 栈 操作 。 入 栈 操作 会 将 整数 0 到 9 按 顺 序 压 人 

栈 ; 出 栈 操作 会 打印 出 返回 值 。 下 面 哪 种 序列 是 不 可 能 产生 的 ? 
a4321098765 

b.4687532901 

c2567489310 

d4321056789 

e1234569870 

f0465381729 

g1479865302 

h2143658790 
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1.3.4 


1.3.6 


1.3.7 
1.3.8 


1.3.9 


1.3.10 


1.3.11 


1.3.12 


1.3.13 


1.3.14 


编写 一 个 Stack 的 用 例 Parentheses， 从 标准 输入 中 读 取 一 个 文本 流 并 使 用 栈 判 定 其 中 的 括 
号 是 否 配对 完整 。 例 如 ， 对 于 [CO]{Jf[GO OI]O3 程序 应 该 打印 true， 对 于 [(]) 则 打印 
false。 

当 N 为 50 时 下 面 这 段 代 码 会 打印 什么 ?从 较 高 的 抽象 层次 描述 给 定 正 整 数 N 时 这 段 代码 的 行为 。 


Stack<Integer> stack = new Stack<Integer>(); 
while (N > 0) 
{ 

Stack.push(N % 2); 

N=N/2; 
} 
for (int d : stack) StdOut.print(d); 
StdOut.print1nO; 


答 : 打印 N 的 二 进 制 表示 ( 当 N 为 50 时 打印 110010 ) 。 
下 面 这 段 代码 对 队列 q 进行 了 什么 操作 ? 


Stack<String> stack = new Stack<String>(O); 

while (!q.isEmptyO)) 
Stack.push(q.dequeue()); 

while (!stack.isEmpty()) 
q.enqueue(stack.pop()); 


为 Stack 添加 一 个 方法 peek() ， 返 回 栈 中 最 近 添 加 的 元 素 ( 而 不 弹出 它 ) 。 

给 定 以 下 输入 ,给 出 Doub1ingStackOfStrings 的 数组 的 内 容 和 大 小 。 

让 was - the best - of times - - - it was - the - - 

编写 一 段 程序 ， 从 标准 输入 得 到 一 个 缺少 左 括号 的 表达 式 并 打印 出 补 全 括号 之 后 的 中 序 表达 式 。 
例如 ， 给 定 输入 : 

1+2)*3-4)*5-6))) 

你 的 程序 应 该 输出 : 

((1+2)*((3-4)*(5-6))) 

编写 一 个 过 滤器 InfixToPostfix， 将 算术 表达 式 由 中 序 表达 式 转 为 后 序 表达 式 。 

编写 一 段 程序 EvaluatePostfix ， 从 标准 输入 中 得 到 一 个 后 序 表达 式 ， 求 值 并 打印 结果 (将 上 一 题 
的 程序 中 得 到 的 输出 用 管道 传递 给 这 一 段 程序 可 以 得 到 和 Evaluate 相同 的 行为 ) 。 
编写 一 个 可 和 迭代 的 Stack 用 例 ， 它 含有 一 个 静态 的 copy0) 方法 ， 接 受 一 个 字符 串 的 栈 作为 参数 
并 返回 该 栈 的 一 个 副本 。 注 意 : 这 种 能 力 是 迭代 器 价值 的 一 个 重要 体现 ， 因 为 有 了 它 我 们 无 需 
改变 基本 API 就 能 够 实现 这 种 功能 。 

假设 某 个 用 例 程序 会 进行 一 系列 入 列 和 出 列 的 混合 队列 操作 。 入 列 操作 会 将 整数 0 到 9 按 顺序 
插入 队列 ; 出 列 操作 会 打印 出 返回 值 。 下 面 哪 种 序列 是 不 可 能 产生 的 ? 
a0123456789 

b.4687532901 

c2567489310 

d4321056789 

编写 一 个 类 ResizingArrayQueueOfStrings， 使 用 定 长 数组 实现 队列 的 抽象 ， 然 后 扩展 实现 ， 
使 用 调整 数组 的 方法 突破 大 小 的 限制 。 
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1.3.15 编写 一 个 Queue 的 用 例 ， 接 受 一 个 命令 行 参数 k 并 打印 出 标准 输入 中 的 倒数 第 k 个 字符 串 〈 候 
设 标准 输入 中 至 少 有 k 个 字符 串 ) 。 

1.3.16 使 用 1.3.1.5 节 中 的 readInts() 作为 模板 为 Date 编写 一 个 静态 方法 readDates() ， 从 标准 输入 
中 读 取 由 练习 1.2.19 的 表格 所 指定 的 格式 的 多 个 日 期 并 返回 一 个 它们 的 数组 。 

1.3.17 为 Transaction 类 完成 练习 1.3.16。 


图 链表 练习 


这 部 分 练习 是 专门 针对 链表 的 。 建 议 : 使 用 正文 中 所 述 的 可 视 化 表达 方式 画图 。 
1.3.18 假设 x 是 一 条 链表 的 某 个 结 点 且 不 是 尾 结 点 。 下 面 这 条 语句 的 效果 是 什么 ? 
x.next = x.next.next; 
答 : 删除 x 的 后 续 结 点 。 
1.3.19 给 出 一 段 代码 ， 删 除 链表 的 尾 结 点 ， 其 中 链表 的 首 结 点 为 first。 
1.3.20 ”编写 一 个 方法 delete() ， 接 受 一 个 int 参数 k， 删 除 链表 的 第 k 个 元 素 ( 如 果 它 存在 的 话 ) 。 
1.3.21 编写 一 个 方法 findC) ， 接 受 一 条 链表 和 一 个 字符 串 key 作为 参数 。 如 果 链 表 中 的 某 个 结 点 的 
item 域 的 值 为 key， 则 方法 返回 true， 否 则 返回 false。 
1.3.22 假设 x 是 一 条 链表 中 的 某 个 结 点 ， 下 面 这 段 代码 做 了 什么 ? 


t.next = x.next; 
x.next = t; 


答 : 插入 结 点 t 并 使 它 成 为 x 的 后 续 结 点 。 
1.3.23 ”为 什么 下 面 这 段 代码 和 上 一 道 题 中 的 代码 效果 不 同 ? 


x.next = t; 
t.next = Xx.next; 


答 : 在 更 新 t.next 时 ，x.next 已 经 不 再 指向 x 的 后 续 结 点 ， 而 是 指向 t 本 身 ! 

1.3.24 ”编写 一 个 方法 removeAfter() ， 接 受 一 个 链表 结 点 作为 参数 并 删除 该 结 点 的 后 续 结 点 ( 如 果 参 
数 结 点 或 参数 结 点 的 后 续 结 点 为 空 则 什么 也 不 做 ) 。 

1.3.25 编写 一 个 方法 insertAfter() ， 接 受 两 个 链表 结 点 作为 参数 ， 将 第 二 个 结 点 插入 链表 并 使 之 成 
为 第 一 个 结 点 的 后 续 结 点 ( 如 果 两 个 参数 为 空 则 什么 也 不 做 ) 。 

1.3.26 编写 一 个 方法 remove() ， 接 受 一 条 链表 和 一 个 字符 串 key 作为 参数 ， 删 除 链表 中 所 有 item 域 
为 key 的 结 点 。 

1.3.27 ”编写 一 个 方法 max() ， 接 受 一 条 链表 的 首 结 点 作为 参数 ， 返 回 链表 中 键 最 大 的 节点 的 值 。 假 设 所 
有 键 均 为 正 整数 ， 如 果 链表 为 空 则 返回 0。 

1.3.28 ”用 递归 的 方法 解答 上 一 道 练习 。 

1.3.29 用 环形 链表 实现 Queue。 环 形 链表 也 是 一 条 链表 ， 只 是 没有 任何 结 点 的 链接 为 室 ， 且 只 要 链表 非 
空 则 1ast.next 的 值 为 first。 只 能 使 用 一 个 Node 类 型 的 实例 变量 (1ast) 。 

1.3.30 ”编写 一 个 函数 ， 接 受 一 条 链表 的 首 结 点 作为 参数 ，( 破坏 性 地 ) 将 链表 反 转 并 返回 结果 链表 的 

迭代 方式 的 解答 : 为 了 完成 这 个 任务 ， 我 们 需要 记录 链表 中 三 个 连续 的 结 点 : reverse、 first 

和 second。 在 每 轮 迭 代 中 ,我 们 从 原 链表 中 提取 结 点 fi rst 并 将 它 插 入 到 逆 链表 的 开头 。 我 们 

需要 一 直 保持 fi rst 指向 原 链表 中 所 有 剩余 结 点 的 首 结 点 ，second 指向 原 链表 中 所 有 剩余 结 点 
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104 b> 第 l 章 基础 


的 第 二 个 结 点 ，reverse 指向 结果 链表 中 的 首 结 点 。 
public Node reverse(Node x) 
{ 
Node first = Xx; 
Node reverse = null; 
while (first != nul1) 
{ 
Node second = first.next; 
first.next = reverse; 
reverse = first; 
first = Second; 
} 
return reverse; 


} 





165 在 编写 和 链表 相关 的 代码 时 ,我 们 必须 小 心 处 理 异常 情况 ( 链表 为 空 或 是 只 有 一 个 或 两 个 结 点 ) 
和 边界 情况 ( 处 理 首尾 结 点 ) 。 它 们 通常 比 处 理 正常 情况 要 困难 得 多 。 

递归 解答 : 假设 链表 含有 入 个 结 点 ， 我 们 先 递 归 颠 倒 最 后 N-1 个 结 点 ， 然 后 小 心地 将 原 链表 中 
的 首 结 点 插入 到 结果 链表 的 末端 。 


public Node reverse(Node first) 











if (first == nu11) return null; 
if (first.next == nu11) return first; 
Node second = first.next; 
Node rest = reverse(second); 
Second.next = first; 
first.next = null; 
return rest; 
} 


1.3.31 实现 一 个 嵌 套 类 DoubleNode 用 来 构造 双向 链表 ， 其 中 每 个 结 点 都 含有 一 个 指向 前 驱 元 素 的 引用 
和 一 项 指向 后 续 元 素 的 引用 ( 如 果 不 存在 则 为 nu11 ) 。 为 以 下 任务 实现 若干 静态 方法 : 在 表 头 








插入 结 点 、 在 表 尾 插 入 结 点 、 从 表 头 删除 结 点 、 从 表 尾 删除 结 点 、 在 指定 结 点 之 前 插入 新 结 点 、 
166| 在 指定 结 点 之 后 插入 新 结 点 、 删 除 指定 结 














图 提高 生 


1.3.32 ”Steque。 一 个 以 栈 为 目标 的 队列 ( 或 称 steque ) ， 是 一 种 支持 push、pop 和 enqueue 操作 的 数 
据 类 型 。 为 这 种 抽象 数据 类 型 定义 一 份 API 并 给 出 一 份 基于 链表 的 实现 。” 

1.3.33 ”Deque。 一 个 双向 队列 ( 或 者 称 为 deque ) 和 栈 或 队列 类 似 , 但 它 同时 支持 在 两 端 添加 或 删除 元 素 。 
Deque 能 够 存储 一 组 元 素 并 支持 表 1.3.9 中 的 API: 


表 1.3.9 泛 型 双向 队列 的 API 


public class Deque<Item> implements Iterable<Item> 
DequeO) 创建 空 双向 队列 
boolean isEmpty() 双向 队列 是 否 为 空 





外 push、pop 都 是 对 队列 同一 端的 操作 、enqueue 和 push 对 应 ， 但 操作 的 是 队列 的 另 一 端 。 一 一 译 者 注 
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( 续 ) 
public class Deque<Item> implements Iterable<Item> 
int sizeO 双向 队列 中 的 元 素数 量 
void pushLeft(Item item) 向 左 端 添 加 一 个 新 元 素 
void pushRight(Item item) 向 右 端 添 加 一 个 新 元 素 
Item popLeft() 从 左 端 删除 一 个 元 素 


Item popRight() 从 右 端 删除 一 个 元 素 


编写 一 个 使 用 双向 链表 实现 这 份 API 的 Deque 类 ， 以 及 一 个 使 用 动态 数组 调整 实现 这 份 API 的 
ResizingArrayDeque 类 。 
1.3.34 ”随机 背包 。 随 机 背包 能 够 存储 一 组 元 素 并 支持 表 1.3.10 中 的 API: 
表 1.3.10 泛 型 随机 背包 的 API 
public class RandomBag<Item> implements Iterable<Item> 





RandomBag() 创建 一 个 空 随机 背包 
boolean isEmpty() 背包 是 否 为 空 
int sizeO 背包 中 的 元 素数 量 
void add(Item item) 添加 一 个 元 素 


编写 一 个 RandomBag 类 来 实现 这 份 API。 请 注意 ， 除 了 形容 词 随机 之 外 ， 这 份 APL 和 Bag 的 API 

是 相同 的 ， 这 意味 着 选 代 应 该 随机 访问 背包 中 的 所 有 元 素 ( 对 于 每 次 和 迭代， 所 有 的 N! 种 排列 出 [167 

现 的 可 能 性 均 相 同 ) 。 提 示 : 用 数组 保存 所 有 元 素 并 在 迭代 器 的 构造 函数 中 随机 打 乱 它们 的 顺序 。 
1.3.35 随机 队列 。 随 机 队列 能 够 存储 一 组 元 素 并 支持 表 1.3.11 中 的 API: 














表 1.3.11 泛 型 随机 队列 的 API 
public class RandomQueue<Item> 





RandomQueue() 创建 一 条 空 的 随机 队列 
boolean isEmpty() 队列 是 否 为 空 
void enqueue(Item item) 添加 一 个 元 素 
Item dequeue() 删除 并 随机 返回 一 个 元 素 ( 取样 且 不 放 回 ) 
Item sample() 随机 返回 一 个 元 素 但 不 删除 它 〈 取样 且 放 回 ) 


编写 一 个 RandomQueue 类 来 实现 这 份 API。 提 示 : 使 用 ( 能 够 动态 调整 大 小 的 ) 数组 表示 
数据 。 删 除 一 个 元 素 时 ， 随 机 交换 某 个 元 素 ( 索引 在 0 和 N-1 之 间 ) 和 末 位 元 素 ( 索引 为 
N-1) 的 位 置 ， 然 后 像 ResizingArrayStack 一 样 删除 并 返回 未 位 元 素 。 编 写 一 个 用 例 ， 使 用 
RandomQueue<Card> 在 桥牌 中 发 牌 (每 人 13 张 ) 。 

1.3.36 ”随机 和 迭代 器 。 为 上 一 题 中 的 RandomQueue<Item> 编写 一 个 迭代 器 ,随机 返回 队列 中 的 所 有 元 素 。 

1.3.37 Josephus 问题 。 在 这 个 古老 的 问题 中 ，N 个 身 陷 绝境 的 人 一 致 同意 通过 以 下 方式 减少 生存 人 
数 。 他 们 围 坐 成 一 圈 (位 置 记 为 0 到 NN-1) 并 从 第 一 个 人 开始 报 数 ， 报 到 M 的 人 会 被 杀 死 ， 
直到 最 后 一 个 人 留 下 来 。 传 说 中 Josephus 找到 了 不 会 被 杀 死 的 位 置 。 编 写 一 个 Queue 的 用 例 


Josephus, 从 命令 行 接受 NN 和 MM 并 打印 出 人 们 被 杀 死 的 顺序 ( 这 也 将 显示 Josephus 在 圈 中 的 位 置 )。 


% java Josephus 7 2 
1350426 168 
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1.3.38 


1.3.39 


1.3.40 


1.3.41 


1.3.42 


1.3.43 


1.3.44 


删除 第 上 个 元 素 。 实 现 一 个 类 并 支持 表 1.3.12 中 的 API: 


表 1.3.12 泛 型 一 般 队列 的 API 
public class GeneralizedQueue<Item> 








CeneralizedQueue() 创建 一 条 空 队列 
boolean isEmptyO) 队列 是 否 为 空 
void insert(Item x) 添加 一 个 元 素 
Item deleteCint k) 删除 并 返回 最 早 质 入 的 第 k 个 元 素 


首先 用 数组 实现 该 数据 类 型 ， 然 后 用 链表 实现 该 数据 类 型 。 注 意 : 我 们 在 第 3 章 中 介绍 的 算法 
和 数据 结构 可 以 保证 insert() 和 delete() 的 实现 所 需 的 运行 时 间 和 和 队列 中 的 元 素数 量 成 对 
数 关系 一 一 请 见 练习 3.5.27。 

环形 缓冲 区 。 环 形 缓冲 区 ， 又 称 为 环形 队列 ， 是 一 种 定 长 为 N 的 先进 先 出 的 数据 结构 。 它 在 进 
程 间 的 异步 数据 传输 或 记录 日 志文 件 时 十 分 有 用 。 当 缓冲 区 为 空 时 ， 消 费 者 会 在 数据 存 人 缓冲 
区 前 等 待 ; 当 缓冲 区 满 时 , 生产 者 会 等 待 将 数据 存 人 缓冲 区 。 为 RingBuffer 设 计 一 份 API 并 用 ( 回 
环 ) 数组 将 其 实现 。 

前 移 编码 。 从 标准 输入 读 取 一 串 字符 ， 使 用 链表 保存 这 些 字符 并 清除 重复 字符 。 当 你 读 取 了 一 
个 从 未 见 过 的 字符 时 ， 将 它 插入 表 头 。 当 你 读 取 了 一 个 重复 的 字符 时 ， 将 它 从 链表 中 删 去 并 再 
次 插入 表 头 。 将 你 的 程序 命名 为 MoveToFront: 它 实现 了 著名 的 前 移 编码 策略 ， 这 种 策略 假设 最 
近 访 问 过 的 元 素 很 可 能 会 再 次 访问 ， 因 此 可 以 用 于 缓存 、 数 据 压缩 等 许多 场景 。 

复制 队列 。 编 写 一 个 新 的 构造 函数 ， 使 以 下 代码 





Queue<Item> r ~ new Queue<Item>(q); 
得 到 的 指向 队列 q 的 一 个 新 的 独立 的 副本 。 可 以 对 q 或 r 进行 任意 入 列 或 出 列 操作 但 它们 不 
会 相互 影响 。 提 示 : 从 q 中 取出 所 有 元 素 青 将 它们 插入 q 和 r。 

复制 栈 。 为 基于 链表 实现 的 栈 编写 一 个 新 的 构造 函数 ， 使 以 下 代码 

Stack<Item> t = new Stack<Item>(s); 

得 到 的 指向 栈 s 的 一 个 新 的 独立 的 副本 。 

文件 列表 。 文 件 夹 就 是 一 列 文件 和 文件 夹 的 列表 。 编 写 一 个 程序 ， 从 命令 行 接受 一 个 文件 夹 名 
作为 参数 ， 打 印 出 该 文件 夹 下 的 所 有 文件 并 用 递归 的 方式 在 所 有 子 文件 夹 的 名 下 ( 缩 进 ) 列 出 
其 下 的 所 有 文件 。 提 示 : 使 用 队列 ， 并 参考 java.io.File。 

文本 编辑 器 的 缓冲 区 。 为 文本 编辑 器 的 缓冲 区 设计 一 种 数据 类 型 并 实现 表 1.3.13 中 的 API。 


表 1.3.13 ”文本 缓冲 区 的 API 
Public class Buffer 





Buffer() 创建 一 块 空 缓冲 区 
void insert(char c) 在 光标 位 置 插 人 字符 < 
char deleteO 删除 并 返回 光标 位 置 的 字符 
void 1eftCint k) 将 光标 向 左 移动 k 个 位 置 
void rightCint k) 将 光标 向 右 移动 k 个 位 置 
int size() 缓冲 区 中 的 字符 数量 





提示 : 使 用 两 个 栈 。 
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1.3.45 ” 栈 的 可 生成 性 。 假 设 我 们 的 栈 测 试用 例 将 会 进行 一 系列 混合 的 和 人 栈 和 出 栈 操作 ， 序 列 中 的 整数 
0,1,.…,N-1 ( 按 此 先后 顺序 排列 ) 表示 人 栈 操作 ，N 个 减 号 表示 出 栈 操作 。 设 计 一 个 算法 ， 判 
定 给 定 的 混合 序列 是 否 会 使 数组 向 下 溢出 〔 你 所 使 用 的 空间 量 与 N 无 关 ， 即 不 能 用 某 种 数据 结 
构 存储 所 有 整数 ) 。 设 计 一 个 线性 时 间 的 算法 判定 我 们 的 测试 用 例 能 否 产生 某 个 给 定 的 排列 (这 
取决 于 出 栈 操作 指令 的 出 现 位 置 ) 。 1 
解答 : 除非 对 于 某 个 整数 上 ， 前 上 次 出 栈 操作 会 在 前 上 次 和 人 栈 操作 前 完成 ， 否 则 栈 不 会 向 下 溢出 。 
如 果 某 个 排列 可 以 产生 , 那么 它 产生 的 方式 一 定 是 唯一 的 : 如 果 输 出 排列 中 的 下 一 个 整数 在 栈 项 ， 
则 将 它 弹出 ， 和 否则 将 它 压 人 栈 之 中 。 

1.3.46” 栈 可 生成 性 问题 中 禁止 出 现 的 排列 。 若 三 元 组 (ab,c) 中 a<b<c 且 c 最 先 被 弹出 , a 第 二 ,b 第 三 (e 
和 a 以 及 a 和 b 之 间 可 以 间隔 其 他 整数 ) ,那么 当 且 仅 当 排 列 中 不 含 这 样 的 三 元 组 时 ( 如 上 题 所 
述 的 ) 栈 才 可 能 生成 它 。 
部 分 解答 : 设 有 一 个 这 样 的 三 元 组 (a,b,c)。c 会 在 a 和 b 之 前 被 弹出 , 但 a 和 b 会 在 e 之 前 被 压 入 。 
因此 ， 当 c 被 压 人 时 ,a 和 bb 都 已 经 在 栈 之 中 了 。 所 以 ，a 不 可 能 在 b 之 前 被 弹出 。 

1.3.47 可 连接 的 队列 、 栈 或 steque。 为 队列 、 栈 或 steque ( 请 见 练习 1.3.32 ) 添加 一 个 能 够 (破坏 性 地 ) 
连接 两 个 同类 对 象 的 额外 操作 catenation。 

1.3.48 ”双向 队列 与 栈 。 用 一 个 双向 队列 实现 两 个 栈 ， 保 证 每 个 栈 操作 只 需要 常数 次 的 双向 队列 操作 ( 请 
见 练习 1.3.33 ) 。 

1.3.49 “ 栈 与 队列 。 用 三 个 栈 实现 一 个 队列 , 保证 每 个 队列 操作 ( 在 最 坏 情况 下 ) 都 只 需要 常数 次 的 栈 操作 。 
警告 : 非常 难 ! 

1.3.50 快速 出 错 的 选 代 器 。 修 改 Stack 的 迭代 器 代码 ， 确 保 一 旦 用 例 在 近代 器 中 ( 通过 pushO 
或 popO) 操作 ) 修改 集合 数据 就 她 出 一 个 java.uti1.ConcurrentModificationException 异常 。 
解答 : 用 一 个 计数 器 记录 push() 和 popOQ 操作 的 次 数 。 在 创建 迁 代 器 时 ， 将 该 值 记录 到 
Iterator 的 一 个 实例 变量 中 。 在 每 次 调用 hasNext() 和 next() 之 前 , 检查 该 值 是 否 发 生 了 变化 ， 
如 果 变化 则 抛 出 异常 。 171 
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1.4 算法 分 析 


随 着 使 用 计算 机 的 经 验 的 增长 ， 人 们 在 使 用 计算 机 解决 困难 问题 或 是 处 理 大 量 数 据 时 不 可 避免 

的 将 会 产生 这 样 的 疑问 
我 的 程序 会 运行 多 长 时 间 ? 
为 什么 我 的 程序 耗 尽 了 所 有 内 存 ? 

在 重建 某 个 音乐 或 照片 库 、 安 装 某 个 新 应 用 程序 、 编 辑 某 个 大 型 文档 或 是 处 理 一 大 批 实验 数据 
时 ,你 肯定 也 问 过 自己 这 些 问题 。 这 些 问题 太 模糊 了 ， 我 们 无 法 准确 回答 一 一 答案 取决 于 许多 因素 
比如 你 所 使 用 的 计算 机 的 性 能 、 被 处 理 的 数据 的 性 质 和 完成 任务 所 使 用 的 程序 ( 实现 了 某 种 算法 ) 。 
这 些 因素 都 会 产生 大 量 需 要 分 析 的 信息 。 

尽管 有 这 些 困难 ,你 在 本 节 中 将 会 看 到 ,为 这 些 基础 问题 给 出 实质 性 的 答案 有 时 其 实 非 常 简单 。 
这 个 过 程 的 基础 是 科学 方法 , 它 是 科学 家 们 为 获取 自然 界 知 识 所 使 用 的 一 系列 为 大 家 所 认同 的 方法 。 
我 们 将 会 使 用 数学 分 析 为 算法 成 本 建立 简洁 的 模型 并 使 用 实验 数据 验证 这 些 模型 


1.4.1 科学 方法 

科学 家 用 来 理解 自然 世界 的 方法 对 于 研究 计算 机 程序 的 运行 时 间 同 样 有 效 : 

口 细致 地 观察 真实 世界 的 特点 ， 通 常 还 要 有 精确 的 测量 

口 根据 观察 结果 提出 假设 模型 ; 

口 根据 模型 预测 未 来 的 事件 ; 

口 继续 观察 并 核实 预测 的 准确 性 ; 

口 如 此 反复 直到 确认 预测 和 观察 一 致 。 

科学 方法 的 一 条 关键 原则 是 我 们 所 设计 的 实验 必须 是 可 重 现 的 ， 这 样 他 人 也 可 以 自己 验证 假设 
的 真实 性 。 所 有 的 假设 也 必须 是 可 证 伪 的 ， 这 样 我 们 才能 确认 某 个 假设 是 错误 的 ( 并 需要 修正 ) 。 
正如 爱 因 斯 坦 的 一 名 名言 所 说 : “再 多 的 实验 也 不 一 定 能 够 证 明 我 是 对 的 ， 但 只 需要 一 个 实验 就 能 
证 明 我 是 错 的 。” 我 们 永远 也 没 法 知道 某 个 假设 是 否 绝对 正确 ， 我 们 只 能 验证 它 和 我 们 的 观察 的 一 
致 性 。 


1.4.2 观察 

我 们 的 第 一 个 挑战 是 决定 如 何 定量 测量 程序 的 运行 时 间 。 在 这 里 这 个 任务 比 自然 科学 中 的 要 简 
单 得 多 。 我 们 不 需要 向 火星 发 射 火箭 或 者 牺牲 一 些 实验 室 的 小 动物 或 是 分 裂 某 个 原子 一 一 只 需要 运 
行程 序 即 可 。 事 实 上 ， 每 次 运行 程序 都 是 在 进行 一 次 科学 实验 ， 将 这 个 程序 和 自然 世界 联系 起 来 并 
回答 我 们 的 一 个 核心 问题 我 的 程序 会 运行 多 长 时 间 ? 

我 们 对 大 多 数 程序 的 第 一 个 定量 观察 就 是 计算 性 任务 的 困难 程度 可 以 用 问题 的 规模 来 衡量 。 一 
般 来 说 ， 问 题 的 规模 可 以 是 输入 的 大 小 或 是 某 个 命令 行 参数 的 值 。 根 据 直 觉 ， 程 序 的 运行 时 间 应 该 
随 着 问题 规模 的 增长 而 变 长 ， 但 我 们 每 次 在 开发 和 运行 一 个 程序 时 想 问 的 问题 都 是 运行 时 间 的 增长 
有 多 快 。 

从 许多 程序 中 得 到 的 另 一 个 定量 观察 是 运行 时 间 和 输入 本 身 相对 无 关 , 它 主要 取决 于 问题 规模 。 
如 果 这 个 关系 不 成 立 ， 我 们 就 需要 进行 一 些 实验 来 更 好 地 理解 并 更 好 地 控制 运行 时 间 对 输入 的 敏感 
度 。 但 这 个 关系 常常 是 成 立 的 ， 因 此 我 们 现在 来 重点 研究 如 何 更 好 地 将 问题 规模 和 运行 时 间 的 关系 
量化 。 


1.4.2.1 举例 

右 侧 的 ThreeSum 程序 是 一 个 可 运行 
的 示例 。 它 会 统计 一 个 文件 中 所 有 和 为 0 
的 三 整数 元 组 的 数量 ( 假设 整数 不 会 溢出 )。 
这 种 计算 可 能 看 起 来 有 些 不 自然 ， 但 其 实 
它 和 许多 基础 计算 性 任务 都 有 着 深刻 的 联 
系 (例如 ， 请 见 练习 1.4.26 ) 。 作 为 测试 
输入 ， 我 们 使 用 的 是 本 书 网 站 上 的 1Mints. 
txt 文件 。 它 含有 100 万 个 随机 生成 的 int 
值 。1Mints.txt 中 的 第 二 个 、 第 八 个 和 第 
十 个 元 组 的 和 均 为 0。 文 件 中 还 有 多 少 组 
这 样 的 数据 ? ThreeSum 能 够 告诉 我 们 答 
案 ， 但 它 所 需 的 时 间 可 以 接受 吗 ? 问题 的 
规模 N 和 ThreeSum 的 运行 时 间 有 什么 关 
系 ? 我 们 的 第 一 个 实验 就 是 在 计算 机 上 运 
行 ThreeSum 并 处 理 本 书 网 站 上 的 1Kints. 
txt、2Kints.txt、4Kints.txt 和 8Kints.txt 文 
件 ， 它 们 分 别 含有 1Mints.txt 中 的 1000、 
2000、4000 和 8000 个 整数 。 你 可 以 很 快 
得 到 这 样 的 整数 元 组 在 1Kints.txt 中 共有 
70 组 ,在 2Kints.txt 中 共有 528 组 ,如 图 1.4.1 
所 示 。 这 个 程序 需要 用 比 之 前 长 得 多 的 时 
间 得 到 在 4Kints.txt 中 共有 4039 
组 和 为 0 的 整数 。 在 等 待 它 处 


理 8Kints.txt 的 时 候 ， 你 会 发 现 324110 
你 在 问 自己 : “我 的 程序 还 要 。 “626685 
运行 多 久 ? ”你 会 看 到 , 对于。 -157678 
这 个 程序 ， 回 答 这 个 问题 很 简 pny 
单 。 实 际 上 ， 你 常常 能 在 程序 A 
运行 的 时 候 就 给 出 一 个 较为 准 ht 
确 的 预测 。 287381 
1.4.2.2 计时 器 es 
准确 测量 给 定 程序 的 确切 。 -247109 
运行 时 间 是 很 困难 的 。 不 过 幸 3 
运 的 是 我 们 一 般 只 需要 近似 值 3 
就 可 以 了 。 我 们 希望 能 够 把 需 。 33284> 
要 几 秒 钟 或 者 几 分 钟 就 能 完成 9168 
的 程序 和 需要 几 天 、 几 个 月 其 2 
至 更 长 时 间 才能 完成 的 程序 区 


别 开 来 ， 而 且 我 们 希望 知道 对 


% more 1Mints.txt 
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public class ThreeSum 
i 
public static int count(int[] a) 
人 // 统计 和 为 0 的 元 组 的 数量 
int N = a.length; 
int cnt = 0; 
for (int i = 0; 1 < Ni 1++) 
for Cint j = isl; j < Ni j++) 
for Cint k = j+l; k < N; k++) 
if Cari + ar[j] + a[k] == 0) 
Cnt++; 
return cnt; 


public static void main(String[] args) 
{ 


int[] a = In.readIntsCargs[0]); 
StdOut.printin(count(a)); 
} 
} 


对 于 给 定 的 N， 这 段 程序 需要 运行 多 长 时 间 


% java ThreeSum 1Kints.txt 


人) 滴答 油 答 滴答 


70 
% java ThreeSum 2Kints. txt 


济 答 滴答 滴答 滴答 洽 注 答 滴答 注 答 
滴答 注 答 滴答 滴答 注 答 注 答 消 答 注 答 
注 答 注 答 请 答 滴答 注 答 注 答 滴答 滴答 


528 
% java ThreeSum 4Kints.txt 


演 答 注 若 泣 答 滴答 泣 答 滴答 滴答 注 答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 滴答 
消 答 滴答 注 答 滴答 注 答 滴答 滴答 滴答 
注 答 滴答 滴答 注 答 注 答 滴答 注 答 滴答 


请 答 油 答 滴答 滴答 滴答 滑 答 滴答 滴答 
滴答 滴答 滴答 滴答 滴答 滴答 滴答 注 答 
济 答 滴答 滴答 滴答 泣 答 滴答 渍 答 江 答 
注 答 注 答 滴答 消 答 滴答 滴答 渍 答 注 答 
消 答 注 答 注 答 注 答 济 答 注 答 滴答 泣 答 
济 答 注 答 滴答 滴答 滴答 注 答 泣 答 注 答 
注 答 滴答 泣 答 泣 答 江 答 注 答 注 答 注 答 
注 答 注 答 泣 答 注 答 注 答 注 答 注 答 泣 答 
注 答 注 答 注 答 滴答 注 答 注 答 光 答 泣 答 
注 答 注 答 滴答 滴答 注 答 滴答 江 答 泣 答 
滴答 注 答 注 答 滴答 注 答 滴答 消 答 注 答 
帝 答 痊 答 油 答 滴答 痪 答 请 答 滴答 消 答 
注 答 请 答 泣 答 滴答 请 答 泣 答 滴答 滴答 
注 答 滴答 滴答 滴答 滴答 泣 答 滴答 注 答 
消 答 注 答 滴答 请 答 滴答 滴答 滴答 滴答 
滴答 注 答 滴答 滴答 滴答 注 答 注 答 泣 答 
济 答 注 答 泣 答 滴答 注 答 注 答 济 答 滴答 
济 答 滴答 注 答 滴答 注 答 滴答 滴答 杜 答 
滴答 滴答 滴答 注 答 注 答 泣 答 消 答 注 答 
og 滴答 滴答 滴答 滑 答 讽 答 滴答 请 答 清 答 


图 1.4.1 记录 一 个 程序 的 运行 时 间 
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于 同一 个 任务 某 个 程序 是 不 是 比 另 一 个 程序 快 一 倍 。 因 此 ， 我 们 仍然 需要 准确 的 测量 手段 来 生成 实 
验 数据 , 并 根据 它们 得 出 并 验证 关于 程序 的 运行 时 间 和 问题 规模 的 假设 。 为 此 , 我 们 使 用 了 如 表 1.4.1 
所 示 的 Stopwatch 数据 类 型 。 它 的 elapsedTime() 方法 能 够 返回 自 它 创建 以 来 所 经 过 的 时 间 ， 以 
秒 为 单位 。 它 的 实现 基于 Java 系统 的 currentTimeMi11is() 方法 ， 该 方法 能 够 返回 以 毫秒 记 数 的 
当前 时 间 。 它 在 构造 函数 中 保存 了 当前 时 间 ， 并 在 elapsedTime() 方法 被 调用 时 再 次 调用 该 方法 
来 计算 得 到 对 象 创建 以 来 经 过 的 时 间 。 


表 1.4.1 一 种 表示 计时 器 的 抽象 数据 类 型 
API public class Stopwatch 








Stopwatch() 创建 一 个 计时 器 
double ”elapseTimeO) 返回 对 象 创建 以 来 所 经 过 的 时 间 
典型 用 例 public static void main(String[] args) 
{ 


int N = Integer.parseInt(args[0]); 
int[] a = new int[N]; 
for (int 1 = 0; 1 < Ni i++) 

a[i] = StdRandom.uniform(-1000000, 1000000); 
Stopwatch timer = new Stopwatch(); 
int cnt = ThreeSum.count(a); 
double time ~ timer.elapsedTime(); 
StdOut.println(cnt + "triples" + time + "seconds"); 


使 用 方法 % java Stopwatch 1000 
51 triples 0.488 seconds 
% java Stopwatch 2000 
516 triples 3.855 seconds 


数据 类 型 的 实现 public class Stopwatch 
{ 


private final long start; 

public Stopwatch() 

{ start = System.currentTimeMillisO); } 
public double elapsedTime() 

{ 


long now = System.currentTimeMi1lis(); 
return (now - start) / 1000.0; 
} 
} 





1.4.2.3 ”实验 数据 的 分 析 

DoublingTest 是 Stopwatch 的 一 个 更 加 复杂 的 用 例 ， 并 能 够 为 ThreeSum 产生 实验 数据 。 它 会 生 
成 一 系列 随机 输入 数组 ， 在 每 一 步 中 将 数组 长 度 加 倍 ， 并 打印 出 ThreeSum.count() 处 理 每 种 输入 规 
模 所 需 的 运行 时 间 。 这 些 实验 显然 是 可 重 现 的 一 一 你 也 可 以 在 自己 的 计算 机 上 运行 它们 , 多 少 次 都 行 。 
在 运行 DoublingTest 时 ， 你 会 发 现 自己 进入 了 一 个 “预测 一 验证 ”的 循环 : 它 会 快速 打印 出 几 行 数据 ， 
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但 随即 慢 了 下 来 。 每 当 它 打印 出 一 行 结果 时 ， 你 都 会 开始 琢磨 它 还 需要 多 久 才 能 打出 下 一 行 。 当 然 ， 
因为 大 家 使 用 的 计算 机 不 同 ， 你 得 到 的 实际 运行 时 间 很 可 能 和 我 们 的 计算 机 得 到 的 不 一 样 。 事 实 上 ， 
如 果 你 的 计算 机 上 比 我 们 的 快 一 倍 ， 你 所 得 到 的 运行 时 间 应 该 大 致 是 我 们 所 得 到 的 一 半 。 由 此 我 们 马上 
可 以 得 出 一 条 有 说 服 力 的 猜想: 程序 在 不 同 的 计算 机 上 的 运行 时 间 之 比 通常 是 一 个 常数 。 尽 管 如 此 ， 
你 还 是 会 提出 更 详细 的 问题 : 作为 问题 规模 的 一 个 函数 ， 我 的 程序 的 运行 时 间 是 多 久 ? 为 了 帮助 你 回 
答 这 个 问题 ， 我 们 来 将 数据 绘制 成 图 表 。 图 1.4.2 就 是 产生 结果 ， 使 用 的 分 别 是 标准 比例 尺 和 对 数 比 
例 尺 。 其 中 x 轴 表示 N, y 轴 表示 程序 的 运行 时 间 TUN)。 由 对 数 的 图 像 我 们 立即 可 以 得 到 一 个 关于 运 
行 时 间 的 猜想 一 一 因为 数据 和 斜率 为 3 的 直线 完全 吻合 。 该 直线 的 公式 为 ( 其 中 a 为 常数 ) : 


lg(T(IN) = 3 lgN + lga 


TIV) =aN’ 

这 就 是 我 们 想 要 的 运行 时 间 关于 输入 规模 N 的 函数 。 我 们 可 以 用 其 中 一 个 数据 点 来 解 出 a 的 
值 一 一 例如，7(8000)= a8000’， 可 得 a = 9.98 x 10” 一 一 因此 我 们 就 可 以 用 以 下 公式 预测 N 值 较 大 
时 程序 的 运行 时 间 : 

T(N)=9.98 x 10" NW 

我 们 可 以 根据 对 数 图 像 中 的 数据 点 距离 这 条 直线 的 远近 来 不 严格 地 检验 这 条 假设 。 一 : 
方法 可 以 帮助 我 们 更 加 仔细 地 分 析出 a 和 指数 b 的 近似 值 ， 但 我 们 的 快速 计算 已 经 足以 在 大 
况 下 估计 出 程序 的 运行 时 间 。 例 如 ， 我 们 预计 ， 在 我 们 的 计算 机 上 ， 当 N=16000 时 程序 的 运行 时 间 
约 为 9.98 x 10" x 16000:=408.8 秒 ， 也 就 是 约 6.8 分 钟 (实际 时 间 为 409.3 秒 ) 。 在 等 待 计算 机 得 出 
DoublingTest 在 N=16000 的 实验 数据 时 ， 也 可 以 用 这 个 方法 来 预测 它 何 时 将 会 结束 ， 然 后 等 待 并 验 
证 你 的 结果 是 否 正确 。 






实验 程序 实验 结果 

public class DoublingTest % java DoublingTest 

{ 250 0.0 

public static double timeTrial(int N) 500 0.0 

{ // 为 处 理 N 个 随机 的 六 位 整数 的 ThreeSum.count() 计时 1000 0.1 

int MAX = 1000000; 2000 0.8 

int[] a = new int[N]; 4000 6.4 

for (int 1 = 0; 1 < N; i++) 8000 51.1 


a[i] = StdRandom.uniform(-MAX, MAX); 
Stopwatch timer = new Stopwatch(); 
int cnt = ThreeSum.count(a); 
return timer.elapsedTime(); 
} 
public static void main(String[] args) 
{ // 打印 运行 时 间 的 表格 
for Cint N = 250; true; N += N) 
{ // 打印 问题 规模 为 N 时 程序 的 用 时 
double time = timeTrial(N); 
StdOut .printf("%7d %5.1f\n", N, time); 
Ey 
} 
} 
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图 1.4.2 实验 数据 (ThreeSum.count() 的 运行 时 间 ) 的 分 析 


到 现在 为 止 ， 这 个 过 程 和 科学 家 们 在 尝试 理解 真实 世界 的 奥秘 时 进行 的 过 程 完全 相同 。 对 数 图 
像 中 的 直线 等 价 于 我 们 对 数据 符合 公式 TUN)=aN* 的 狂想 。 这 种 公式 被 称 为 暴 次 法 则 。 许 多 自然 和 
人 工 的 现象 都 符合 寡 次 法 则 ， 因 此 假设 程序 的 运行 时 间 符合 寡 次 法 则 也 是 合情合理 的 。 事 实 上 ,对 
于 算法 的 分 析 , 我 们 有 许多 数学 模型 强烈 支持 这 种 函数 和 其 他 类 似 的 假设 , 我 们 现在 就 来 学 习 它 们 。 


1.4.3 ”数学 模型 

在 计算 机 科学 的 早期 ，D. E. Knuth 认为 ， 尽 管 有 许多 复杂 的 因素 影响 着 我 们 对 程序 的 运行 时 间 
的 理解 ， 上 我 们 仍然 可 能 构造 出 一 个 数学 模型 来 描述 任意 程序 的 运行 时 间 。Knuth 的 基本 见地 
很 简单 一 一 一 个 程序 运行 的 总 时 间 主 要 和 两 点 有 关 : 

口 执行 每 条 语句 的 耗 时 ; 

口 执行 每 条 语句 的 频率 。 

前 者 取决 于 计算 机 、Java 编译 器 和 操作 系统 ， 后 者 取决 于 程序 本 身 和 输入 。 如 果 对 于 程序 的 所 
有 部 分 我 们 都 知道 了 这 些 性 质 ， 可 以 将 它们 相 乘 并 将 程序 中 所 有 指令 的 成 本 相 加 得 到 总 运行 时 间 。 

第 一 个 挑战 是 判定 语句 的 执行 频率 。 有 些 语句 的 分 析 很 容易 : 例如 ，ThreeSum.count() 中 将 
cnt 的 值 设 为 0 的 语句 只 会 执行 一 次 。 有 些 则 需要 深入 分 析 : 例如 ，ThreeSum.count() 中 的 if 
语句 会 执行 MN-1)(N-2)/6 次 ( 从 输入 数组 中 能 够 取得 的 三 个 不 同 整数 的 数量 一 一 请 见 练习 1.4.1 ) 。 
其 他 则 取决 于 输入 数据 ， 例 如 ，ThreeSum.count() 中 的 指令 cnt++ 执行 的 次 数 为 输入 中 和 为 0 的 
整数 三 元 组 的 数量 ， 这 可 能 是 0 也 可 能 是 任意 值 。 对 于 DoublingTest 的 情况 ,输入 值 是 随机 产生 的 ， 
我 们 可 以 用 概率 分 析 得 到 该 值 的 期 望 ( 请 见 练习 1.4.40 ) 。 
1.4.3.1 近似 

这 种 频率 分 析 可 能 会 产生 复杂 元 长 的 数学 表达 式 。 例 如 ， 刚 才 我 们 所 讨论 的 ThreeSum 中 的 if 
语句 的 执行 次 数 为 : 















NOV_ DUOV-2)6=NPW6-NP2+N3 
一 般 在 这 种 表达 式 中 ， 首 项 之 后 的 其 他 项 都 相对 较 小 【例如 ， 当 N=1000 时 ，-M2+N3 = 499 667， 
相对 于 N36 = 166 666 667 就 小 得 多 了 ) ， 如 图 1.4.3 所 示 。 我 们 常常 使 用 约 等 于 号 (~ ) 来 忽略 
较 小 的 项 ， 从 而 大 大 简化 我 们 所 处 理 的 数学 公式 。 该 符号 使 我 们 能 够 用 近似 的 方式 忽略 公式 中 那 
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些 非常 复杂 但 寡 次 较 低 ， 且 对 最 终结 果 的 贡献 无 关 紧要 的 项 : 


定义 。 我 们 用 ~XV) 表示 所 有 随 着 NN 的 增 大 除 以 AN) 的 结果 趋 近 于 1 的 函数 。 我 们 用 g(N) ~ 
AN) 表示 g(NYAN) 随 着 N 的 增 大 趋 近 于 1。 


例如 ,我们 用 ~N/6 表示 ThreeSum 中 的 
诈 语 句 的 执行 次 数 ， 因 为 N/6-N/2+N/3 除 
以 N6 的 结果 随 着 N 的 增 大 趋向 于 1。 一 般 
我 们 用 到 的 近似 方式 都 是 g(N) ~ aKN)， 其 中 
N=N'(logN)， 其 中 a、b 和 c 均 为 常数 。 我 
们 将 RN) 称 为 g(N) 的 增长 的 数量 级 ( 如 表 1.4.2 
所 示 ) 。 我 们 一 般 不 会 指定 底数 ， 因 为 常数 a 
能 够 弥补 这 些 细节 。 这 种 形式 的 函数 覆盖 了 我 





























们 在 对 程序 运行 时 间 的 研究 中 经 常 遇 到 的 几 图 1.4.3 首 项 近似 
种 函数 ,如 表 1.4.3 所 示 ( 指数 级 别 是 一 个 例外 ， 
我 们 会 在 第 6 章 中 讲 到 ) 。 我 们 会 详细 说 明 这 表 1.4.2 典型 的 近似 
几 种 函数 并 在 处 理 完 ThreeSum 之 后 简要 讨论 ”了 画 数 ” 过 似 ”增长 的 数量 级 
为 什么 它们 会 出 现在 算法 分 析 领域 之 中 。 NY6-N2HN3 二 作 而 
1.4.3.2 ”近似 运行 时 间 SR a 
按照 Knuth 的 方法 ， 要 得 到 一 个 Java 程 pa 中 过 
序 的 总 运行 时 间 的 数学 表达 式 ，( 原则 上 ) 
我 们 需要 研究 我 们 的 Java 编译 器 来 找 出 每 条 表 1.4.3 ”常见 的 增长 数量 级 函数 
Java 指令 所 对 应 的 机 器 指令 数 ， 并 根据 我 们 增长 的 数量 级 
的 计算 机 的 指令 规范 得 到 每 条 机 器 指令 的 运 描述 函数 
行 时 间 ， 然 后 才能 得 到 一 个 总 运行 时 间 。 对 于 常数 级 别 1 
ThreeSum， 这 个 时 间 的 大 至 总结 如 图 1.4.4 所 对 数 级 别 ei 
示 。 我 们 根据 执行 的 频率 将 Java 的 语句 分 块 ， nie i 
计算 出 每 种 频率 的 首 项 近似 ,判定 每 条 指令 的 尝 入 六 Mw 
执行 成 本 并 计算 出 总 和 。 请 注意 ， 某 些 执行 频 立方 级 别 m 
率 可 能 会 依赖 于 输入 。 在 本 例 中 ，cnt++ 的 执 指数 级 别 [到 





行 次 数 显然 就 是 依赖 于 输入 的 一 一 它 就 是 和 

为 0 的 整数 三 元 组 的 数量 ， 范 围 在 0 到 ~ N36 之 间 。 通 过 用 常数 0、# 、#… 表 示 各 个 代码 块 的 执行 
时 间 ， 我 们 假设 每 个 Java 代码 块 所 对 应 的 机 器 指令 集 所 需 的 执行 时 间 都 是 固定 的 。 除 此 之 外 ,我 们 
基本 不 会 涉及 任何 特定 系统 的 细节 ( 这 些 常数 的 值 ) 。 从 这 里 我 们 观察 到 的 一 个 关键 现象 是 执行 最 
频繁 的 指令 决定 了 程序 执行 的 总 时 间 一 一 我 们 将 这 些 指令 称 为 程序 的 内 循环 。 对 于 ThreeSum 来 说 ， 
它 的 内 循环 是 将 k 加 1、 判 断 它 是 否 小 于 N 以 及 判断 给 定 的 三 个 整数 之 和 是 否 为 0 的 语句 (也许 还 
包括 记 数 的 语句 ， 不 过 这 取决 于 输入 ) 。 这 种 情况 是 很 典型 的 : 许多 程序 的 运行 时 间 都 只 取决 于 其 
中 的 一 小 部 分 指令 。 
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1.4.3.3 ”对 增长 数量 级 的 猜想 
总 之 ，1.4.2.3 节 中 的 实验 和 表 1.4.4 中 的 数学 模型 都 支持 以 下 猜想 : 


性 质 A。ThreeSum ( 在 N 个 数 中 找 出 三 个 和 为 0 的 整数 元 组 的 数量 ) 的 运行 时 间 的 增长 数量 级 
为 N?。 

例证 。 设 TOV) 为 ThreeSum 处 理 NN 个 整数 的 运行 时 间 。 根 据 前 文 所 述 的 数学 模型 有 T(N) ~ 
aN?， 其 中 常数 a 取决 于 计算 机 的 具体 型 号 。 在 许多 计算 机 上 完成 的 实验 (包括 你 我 的 计算 机 ) 
都 验证 了 这 个 近似 。 


4 Lindt ba 数学 分 析 的 最 终结 果 和 我 们 的 实验 分 析 
， 其 中 常数 a 取决 于 计算 机 的 具体 型 号 。 这 
pt 了 类 只 结果 和 数学 模型， 也 所 示 了 该 各 凤 的 更 性 贰 ， 因为 我 们 不 需要 实验 就 能 确定 
N 的 指数 。 稍 加 努力 ， 我 们 就 能 确定 某 个 特定 系统 上 的 a 的 值 ， 不 过 这 一 般 都 只 在 有 性 能 压力 的 情 
形 下 才 需 要 由 专家 来 完 


public class ThreeSum 





public static int count(int[] a) 
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public static void main(String[] args) 内 
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图 1.4.4 程序 语句 执行 频率 的 分 析 
表 1.4.4 程序 运行 时 间 的 分 析 (示例) 

















语 名 块 运行 时 间 (以 秒 记 ) 频率 总 时 间 

E 和 (取决 于 输入 ) bx 

D 在 NY6— NY2+ NI3 4 (NY6 — NY2 + N/3) 

更 四 AN22-N2 (N22 — NN) 

B N oN 
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近似 ~(5/16) (假设 x 很 小 ) 
增长 的 数量 级 N 
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1.4.3.4 ”算法 的 分 析 

类 似 于 性 质 A 的 猜想 的 意义 很 重要 ， 因 为 它们 将 抽象 世界 中 的 一 个 Java 程序 和 真实 世界 中 
运行 它 的 一 台 计 算 机 联系 了 起 来 。 增 长 数量 级 概念 的 应 用 使 我 们 能 够 继续 向 前 迈进 一 步 : 将 程 
序 和 它 实现 的 算法 隔离 开 来 。ThreeSum 的 运行 时 间 的 增长 数量 级 是 中， 这 与 它 是 由 Java 实现 
或 是 它 运行 在 你 的 笔记 本 电脑 上 或 是 某 人 的 手机 上 或 是 一 台 超级 计算 机 上 无 关 。 决 定 这 一 点 的 
主要 因素 是 它 需 要 检查 输入 中 任意 三 个 整数 的 所 有 可 能 组 合 。 你 所 使 用 的 算法 (有 时 还 要 算 上 
输入 模型 ) 决 定 了 增长 的 数量 级 。 将 算法 和 某 台 计算 机 上 的 具体 实现 分 离开 来 是 一 个 强大 的 概念 ， 
因为 这 使 我 们 对 算法 性 能 的 知识 可 以 应 用 于 任何 计算 机 。 例 如 ， 我 们 可 以 说 ThreeSum 是 暴力 算 
法 “计算 所 有 不 同 的 整 教 三 元 组 的 和 ， 统 计 和 为 0 的 组 教 ”的 一 种 实现 ， 可 以 预料 的 是 在 任何 
计算 机 上 使 用 任何 语言 对 该 算法 的 实现 所 需 的 运行 时 间 都 是 和 成 正比 的 。 实 际 上 ， 经 典 算法 
的 性 能 理论 大 部 分 都 发 表 于 数 十 年 前 ， 但 它们 仍然 适用 于 今天 的 计算 机 。 


1.4.3.5 成 本 模型 

我 们 使 用 了 一 个 成 本 模型 来 评估 算法 的 性 质 。 
这 个 模型 定义 了 我 们 所 研究 的 算法 中 的 基本 操作 。 3-sum 的 成 本 模型 。 在 研究 解决 
例如 ， 适 合 于 右 侧 所 示 的 3-sum 问题 的 成 本 模型 是 3-sum 问题 的 算法 时 ， 我 们 记录 的 
我 们 访问 数组 元 素 的 次 数 。 是 数组 的 访问 次 数 ( 访问 数组 元 素 


在 这 个 成 本 模型 之 下 ， 我 们 可 以 用 精确 的 数学 的 次 数 ， 无 论 读 写 ) 。 
语言 说 明 算 法 而 非 某 个 特定 实现 的 性 质 ， 如 下 : 


命题 B。3-sum 的 暴力 算法 使 用 了 ~ N2/2 次 数组 访问 来 计算 六 个 整数 中 和 为 0 的 整数 三 元 组 
的 数量 。 


证 明 。 该 算法 访问 了 ~ 入 36 个 整数 三 元 组 中 的 所 有 3 个 整数 。 


我 们 使 用 术语 命题 来 表示 在 某 个 成 本 模型 下 算法 的 数学 性 质 。 在 全 书 中 我 们 都 会 使 用 某 个 
确定 的 成 本 模型 研究 所 讨论 的 算法 。 我 们 希望 通过 明确 成 本 模型 使 给 定 实现 所 需 的 运行 时 间 的 
增长 数量 级 和 它 背后 的 算法 的 成 本 的 增长 数量 级 相同 ( 换 句 话说 ， 成 本 模型 应 该 和 内 循环 中 的 
操作 相关 ) 。 我 们 会 研究 算法 准确 的 数学 性 质 ( 命题 ) 并 对 实现 的 性 能 作出 猜想 ( 性质) ， 可 
以 通过 实验 验证 这 些 猜 想 。 在 本 例 中 ， 命 题 B 的 数学 结论 支持 了 性 质 A 中 由 科学 方法 得 到 并 由 182 

















对 于 大 多 数 程序 ， 得 到 其 运行 时 间 的 数学 模型 所 需 的 步骤 如 下 : 

口 确定 输入 模型 ， 定 义 问题 的 规模 ; 

口 识别 内 循环 ; 

口 根据 内 循环 中 的 操作 确定 成 本 模型 ; 

口 对 于 给 定 的 输入 ,判断 这 些 操作 的 执行 频率 。 这 可 能 需要 进行 数学 分 析 一 一 我 们 在 本 书 

中 会 在 学 习 具 体 的 算法 时 给 出 一 些 例子 。 

如 果 一 个 程序 含有 多 个 方法 ， 我 们 一 般 会 分 别 讨论 它们 ， 例 如 我 们 在 1.1 节 中 见 过 的 示例 程 
序 BinarySearch。 

二 分 查找 。 它 的 输入 模型 是 大 小 为 N 的 数组 a[] , 内 循环 是 一 个 while 循环 中 的 所 有 语句 ， 
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成 本 模型 是 比较 操作 ( 比较 两 个 数组 元 素 的 值 ) 。3.1 节 中 详细 完整 地 给 出 了 1.1 节 中 所 讨论 过 的 命 
题 B 的 证 明 ， 该 命题 说 明 它 所 需 的 比较 次 数 最 多 为 lgN+1。 

白 名 单 。 它 的 输入 模型 是 白 名 单 的 大 小 N 和 由 标准 输入 得 到 的 M 个 整数 ， 且 我 们 假设 M>>N， 
内 循环 是 一 个 while 循环 中 的 所 有 语句 ， 成 本 模型 是 比较 操作 ( 承 自 二 分 查找 ) 。 由 二 分 查找 的 分 
析 我 们 可 以 立即 得 到 对 白 名 单 问题 的 分 析 一 一 比较 次 数 最 多 为 M(lgN+1)。 
根据 以 下 因素 我 们 可 以 知道 ， 白 名 单 问题 计算 所 需 时 间 的 增长 数量 级 最 多 为 MigN: 
口 如 果 N 很 小 ,输入 一 输出 可 能 会 成 为 主要 成 本 。 
口 比较 的 次 数 取决 于 输入 一 一 在 ~ M 和 ~ MigN 之 间 ， 取 决 于 标准 输入 中 有 多 少 个 整数 在 白 名 
单 中 以 及 二 分 查找 需要 多 久 才 能 找 出 它们 (一 般 来 说 为 ~ MlgN ) 。 
口 我 们 假设 Arrays.sort() 的 成 本 远 小 于 MigN。Arrays.sort() 使 用 的 是 2.2 节 中 的 归并 
排序 算法 。 我 们 会 看 到 归并 排序 的 运行 时 间 的 增长 数量 级 为 MogN ( 请 见 第 2 章 的 命题 G ) ， 
因此 这 个 假设 是 合理 的 。 
因此 ， 该 模型 支持 了 我 们 在 1.1 节 中 作出 的 假设 ， 即 当 M 和 和 很 大 时 二 分 查找 算法 也 能 够 完成 
计算 。 如 果 我 们 将 标准 输入 流 的 长 度 加倍 ， 可 以 预计 的 是 运行 时 间 也 将 加 倍 ; 如 果 我 们 将 白 名 单 的 
大 小 加 倍 ， 可 以 预计 的 是 运行 时 间 只 会 稍 有 增加 。 

在 算法 分 析 中 进行 数学 建 模 是 一 个 多 产 的 研究 领域 ， 但 它 多 少 超出 了 本 书 的 范畴 。 通 过 二 分 查 
找 、 归 并 排序 和 其 他 许多 算法 你 仍 会 看 到 ， 理 解 特定 的 数学 模型 对 于 理解 基础 算法 的 运行 效率 是 很 
关键 的 ， 因 此 我 们 常常 会 详细 地 证 明 它们 或 是 引用 经 典 研究 中 的 结论 。 在 其 中 ， 我 们 会 遇 到 各 种 数 
学 分 析 中 广泛 使 用 的 函数 和 近似 函数 ， 作 为 参考 ， 我 们 分 别 在 表 1.4.5 和 表 1.4.6 中 对 它们 的 部 分 信 









表 1.4.5 算法 分 析 中 的 常见 函数 
一 





描述 记 号 定义 
向 下 取 整 (floor ) [3 不 大 于 x 的 最 大 整数 
向 上 取 整 (ceiling ) lx] 不 小 于 x 的 最 小 整数 
自然 对 数 InN log.NMe'=N) 
以 2 为 底 的 对 数 lgN log:NOC=N) 
以 2 为 底 的 整 型 对 数 UeNj 人 
调和 级 数 Hy 1+1/2+1/3+1/4+5+1/N 
阶乘 NM 1x2x3x4x…xN 


一 一 ~- 


表 1.4.6 算法 分 析 中 常用 的 近似 函数 
PE shett ness cel a hs hse atts ms AE SE 








描 述 近似 函数 
调和 级 数 求 和 HI+12+13+14+…+IN ~ InN 
等 差 数 列 求 和 1424344+…HN ~ NI 
等 比 数列 求 和 1+2+4+8+…+N=2N-1 ~ 2N， 其 中 N=2” 
斯 特 灵 公式 iegNI=Ig1+lg2+lg3+lg84+…+lgN ~ NIgN 
二 项 式 系数 已 ~ No ， 其 中 大 为 小 常数 


指数 函数 (1-1x) ~ le 
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1.4.4 增长 数量 级 的 分 类 
我 们 在 实现 算法 时 使 用 了 几 种 结构 性 的 原 语 ( 普通 语句 、 条 件 语句 、 循 环 、 嵌 套 语句 和 方法 调 
用 ) ， 所 以 成 本 增长 的 数量 级 一 般 都 是 问题 规模 N 的 若干 函数 之 一 。 表 1.4.7 总 结 了 这 些 函数 以 及 
它们 的 称谓 、 与 之 对 应 的 典型 代码 以 及 一 些 例子 。 
表 1.4.7 ”对 增长 数量 级 的 常见 假设 的 总 结 
描 述 增长 的 数量 级 典型 的 代码 说 了 明 举 例 








常数 级 别 1 a=b+c; 普通 语句 将 两 个 数 相 加 
对 数 级 别 log N (请 见 1.1.10.2 节 ， 二 分 查找 ) -分 策略 。 二 分 查找 





double max = a[0]; 
线性 级 别 N for (int 1 = 1; i < N; i++) 循环 找 出 最 大 元 素 
if (a[i] > max) max = a[i]; 








线性 对 数 级 别 NlogN [请 见 算法 2.4] 分 治 归并 排序 
for (int i = 0; i < N; i++) 
平方 级 别 局 检查 所 有 元 素 对 
Cnt++; 





for (int 1 = 0; 1 < N; i 
for (int j = i+l 





N; j++) 








立方 级 别 N for (int k = j+l; k < Ni k++) = 层 循环 检查 所 有 三 元 组 
if (a[i] + a[lj] + a[k] 一 0) 
Cnt++; 
指数 级 别 2 (请 见 第 6 章 ) 穷 举 查 找 ”检查 所 有 子 集 
1.4.4.1 常数 级 别 





行 时 间 的 增长 数量 级 为 常数 的 程序 完成 它 的 任务 所 需 的 操作 次 数 一 定 ， 因 此 它 的 运行 时 间 不 
依赖 于 N。 大 多 数 的 Java 操作 所 需 的 时 间 均 为 常数 。 
1.4.4.2 ”对 数 级 别 

运行 时 间 的 增长 数量 级 为 对 数 的 程序 仅 比 常数 时 间 的 程序 稍 慢 。 运 行 时 间 和 问题 规模 成 对 数 关 
系 的 程序 的 经 典 例子 就 是 二 分 查找 ( 请 见 1.1.10.2 节 的 BinarySearch ) 。 对 数 的 底数 和 增长 的 数量 
级 无 关 ( 因为 不 同 的 底数 仅 相当 于 一 个 常数 因子 ) ， 所 以 我 们 在 说 明 对 数 级 别 时 一 般 使 用 logN。 
1.4.4.3 ”线性 级 别 

使 用 常数 时 间 处 理 输入 数据 中 的 所 有 元 素 或 是 基于 单个 for 循环 的 程序 是 十 分 常见 的 。 此 类 程 
序 的 增长 数量 级 是 线性 的 一 一 它 的 运行 时 间 和 成 正比 。 
1.4.4.4 ”线性 对 数 级 别 

我 们 用 线性 对 数 描述 运行 时 间 和 问题 规模 N 的 关系 为 MogN 的 程序 。 和 之 前 一 样 ， 对 数 的 底数 
和 增长 的 数量 级 无 关 。 线 性 对 数 算法 的 典型 例子 是 Merge.sort( 请 见 算法 2.4) 和 Quick.sortO 〇 (请 
见 算法 2.5) 。 
1.4.4.5 平方 级 别 

一 个 运行 时 间 的 增长 数量 级 为 WP 的 程序 一 般 都 含有 两 个 嵌 套 的 for 循环 ， 对 由 个 元 素 得 到 
的 所 有 元 素 对 进行 计算 。 初 级 排序 算法 Selection.sort() (请 见 算法 2.1) 和 Insertion.sort() 
( 请 见 算法 2.2 ) 都 是 这 种 类 型 的 典型 程序 。 
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1.4.4.6 立方 级 别 

一 个 运行 时 间 的 增长 数量 级 为 Y 的 程序 一 般 都 含有 三 个 嵌 套 的 for 循环 ， 对 由 N 个 元 素 得 
到 的 所 有 三 元 组 进行 计算 。 本 节 中 的 ThreeSum 就 是 一 个 典型 的 例子 。 
1.4.4.7 ”指数 级 别 

在 第 6 章 中 (也 只 会 在 第 6 章 ) 我 们 将 会 遇 到 运行 时 间 和 2* 或 者 更 高 级 别 的 函数 成 正比 的 
程序 。 一 般 我 们 会 使 用 指教 级 别 来 描述 增长 数量 级 为 by 的 算法 ， 其 中 b>1 且 为 常数 ， 尽 管 不 同 
的 b 值得 到 的 运行 时 间 可 能 完全 不 同 。 指 数 级 别 的 算法 非常 慢 一 一 不 可 能 用 它们 解决 大 规模 的 
问题 。 但 指数 级 别 的 算法 仍然 在 算法 理论 
中 有 着 重要 的 地 位 ， 因 为 它们 看 起 来 仍然 
是 解决 许多 问题 的 最 佳 方案 。 

以 上 是 最 常见 分 类 ， 但 肯定 不 是 最 全 
面 的 。 算 法 的 增长 数量 级 可 能 是 NlogN 
或 者 "或 者 是 其 他 类 似 的 函数 。 实 际 上 ， 
详细 的 算法 分 析 可 能 会 用 到 若干 个 世纪 以 
来 发 明 的 各 种 数学 工具 。 

我 们 所 学 习 的 一 大 部 分 算法 的 性 能 特 
点 都 很 简单 ， 可 以 使 用 我 们 所 讨论 过 的 某 
种 增长 数量 级 函数 精确 地 描述 。 因 此 ， 我 a 
们 可 以 在 某 个 成 本 模型 下 提出 十 分 准确 的 第 
命题 。 例 如 ， 归 并 排序 所 需 的 比较 次 数 在 
1/2NgN 到 NgN 之 间 ， 由 此 我 们 立即 可 
知 归并 排序 所 需 的 运行 时 间 的 增长 数量 级 
是 线性 对 数 的。 简单 起 见 ， 我 们 将 这 句 话 
简写 为 归并 排序 是 线性 对 数 的 。 

图 1.4.5 显示 了 增长 数量 级 函数 在 实 
际 应 用 中 的 重要 性 。 其 中 x 轴 为 问题 规模 ， 
y 轴 为 运行 时 间 。 这 些 图 表 清晰 的 说 明了 
平方 级 别 和 立方 级 别 的 算法 对 于 大 规模 的 
问题 是 不 可 用 的 。 许 多 重要 的 问题 的 直观 
解法 是 平方 级 别 的 ， 但 我 们 也 发 现 了 它们 
的 线性 对 数 级 别 的 算法 。 此 类 算法 ( 包括 
归并 排序 ) 在 实践 中 非常 重要 ， 因 为 它们 
能 够 解决 的 问题 规模 远大 于 平方 级 别 的 解 
法 能 够 处 理 的 规模 。 因 此 ， 在 本 书 中 我 们 
自然 希望 为 各 种 基础 问题 找到 对 数 级 别 、 i Ee 
线性 级 别 或 是 线性 对 数 级 别 的 算法 。 图 1.45 典型 的 增长 数量 级 函数 


1.4.5 设计 更 快 的 算法 
学 习 程序 的 增长 数量 级 的 一 个 重要 动力 是 为 了 帮助 我 们 为 同一 个 问题 设计 更 快 的 算法 。 为 























运行 时 间 
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算法 ， 怎 么 知道 如 何 设计 一 个 更 快 的 算法 呢 ? 这 个 问题 的 答案 是 ， 我 们 已 经 讨论 并 使 用 过 两 个 经 典 
的 算法 ， 即 归并 排序 和 二 分 查找 。 也 知道 归并 排序 是 线性 对 数 级 别 的 ， 二 分 查找 是 对 数 级 别 的 。 如 
何 利用 它们 解决 3-sum 问题 呢 ? 
1.4.5.1 热身 运动 2-sum 

我 们 先 来 考虑 这 个 问题 的 简化 版 本 ， 即 找 出 一 个 输入 文件 中 所 有 和 为 0 的 整数 对 的 数量 。 简 
单 起 见 ， 我 们 还 假设 所 有 整数 均 各 不 相同 。 这 个 问题 很 容易 在 平方 级 别 解决 ， 只 需 将 ThreeSum. 
count() 中 关于 k 的 循环 和 a[k] 去 掉 即 可 得 到 一 个 双 层 循环 来 检查 所 有 的 整数 对 ， 如 表 1.4.7 中 的 
平方 级 别 条 目 所 示 ( 我们 将 这 个 实现 称 为 TwoSum ) 。 下 面 这 个 实现 显示 了 归并 排序 和 二 分 查找 是 
如 何在 线性 对 数 级 别 解决 2-sum 问题 的 。 改 进 后 的 算法 的 思想 是 当 且 仅 当 -a[i] 存在 于 数组 中 ( 且 
af[i] 非 零 ) 时 ，a[i] 存在 于 某 个 和 为 0 的 整数 对 之 中 。 要 解决 这 个 问题 ,我 们 首先 将 数组 排序 ( 为 
二 分 查找 做 准备 ) ， 然 后 对 于 数组 中 的 每 个 a[i] ,使 用 BinarySearch 的 rank() 方法 对 -a[i] 进行 
二 分 查找 。 如 果 结果 为 j 且 j>i， 我 们 就 将 计数 器 加 1。 这 个 简单 的 条 件 测试 覆盖 了 三 种 情况 : 

口 如 果 二 分 查找 不 成 功 则 会 返回 -1， 因 此 我 们 不 会 增加 计数 器 的 值 ; 

口 如 果 二 分 查找 返回 的 j>i， 我 们 就 有 a[i] + a[j] = 0， 增 加 计数 器 的 值 ; 

口 如 果 二 分 查找 返回 的 j 在 0 和 ii 之 间 , 我 们 也 有 a[i] + a[j] = 0, 但 不 能 增加 计数 器 的 值 ， 

以 避免 重复 计数 。 
这 样 得 到 的 结果 和 平方 级 别 的 算 














法 得 到 的 结果 完全 相同 ， 但 它 所 需 的 

时 间 要 少 得 多 。 归 并 排序 所 需 的 时 间 es “ss ras 

和 MogN 成 正比 ， 二 分 查找 所 需 的 时 public static int countCint[] a) 

间 和 ogN 成 正比 ， 因 此 整个 算法 的 Mi 人 

运行 时 间 和 NogN 成 正比 。 像 这 样 设 int N = a.length; 

计 一 个 更 快 的 算法 并 不 仅仅 是 一 种 学 frie + 0 

院 派 的 练习 一 一 更 快 的 算法 使 我 们 能 if (BinarySearch.rank(-a[i], a) > i) 
够 解决 更 庞大 的 问题 。 例 如 ， 你 现在 人 

可 以 在 可 接受 的 时 间 范 围 内 在 计算 机 

上 解决 100 万 个 整数 (1Mintstxt ) public static void main(Scringf] args) 189 
的 2-sum 问题 了 ， 但 如 果 用 平方 级 别 i 

的 算法 你 肯定 需要 等 上 很 长 很 长 的 时 Stdout.printinCcountCa)); 


间 (请 见 练习 1.4.41 ) 。 
1.4.5.2 ”3-sum 问题 的 快速 算法 

这 种 方式 对 3-sum 问题 同样 有 2-sum 问题 的 线性 对 数 级 别 的 解法 
效 。 和 刚才 一 样 ， 我 们 假设 所 有 整数 
均 各 不 相同 。 当 且 仅 当 -(a[i] + ar 了 订 ) 在 数组 中 (不 是 a[i] 也 不 是 a[j] ) 时 ， 整 数 对 (a[i] 和 
ar 要) 为 某 个 和 为 0 的 三 元 组 的 一 部 分 。 下 面 代码 框 中 的 代码 会 将 数组 排序 并 进行 MN-1)/2 次 二 分 
查找 ， 每 次 查找 所 需 的 时 间 都 和 logN 成 正比 。 因 此 总 运行 时 间 和 NiogN 成 正比 。 可 以 注意 到 ， 在 
这 种 情况 下 排序 的 成 本 是 次 要 因素 。 这 个 解法 也 使 我 们 能 够 解决 更 大 规模 的 问题 ( 请 见 练习 1.4.42 ) 。 
图 1.4.6 显示 了 用 这 4 种 算法 解决 我 们 提 到 过 的 几 种 问题 规模 时 的 成 本 的 悬殊 差距 。 这 样 的 差距 显 
然 是 我 们 追求 更 快 的 算法 的 动力 。 
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1.4.5.3 下 界 
表 1.4.8 总 结 了 本 节 所 讨 
论 的 内 容 。 我 们 立即 产生 了 一 
个 有 趣 的 疑问 : 我 们 还 能 找到 iie class ThreeSunFast 


import java-util.Arrays; 


比 2-sum 问题 的 TwoSumFast Es i ye 司 
和 3-sum 问题 的 ThreeSumFast 1 
快 得 多 的 算法 吗 ? 是 否 存在 解 和 sig 
int cnt = 0; 

决 2-sum 问题 的 线性 级 别 的 算 for Cint i = 0; 1 < NW: iD 

，3- 可 题 的 线性 对 for Cint isl; jx N; 于 
ee if Binaryseareh. rankCat-aD]， a > 了 
问题 的 回答 是 没有 ( 成 本 模型 rerurn ‘ents 
仅 允许 使 用 并 计算 这 些 整数 的 > 
线性 或 是 平方 级 别 的 函数 中 的 public static void main(String[] args) 
比较 操作 ) ; 对 于 3-sum， 回 int[] a = In.readInts(args[0])’; 


答 是 不 知道 不 过 专家 们 相信 Stdout.println(count(a)) 1; 
3-sum 可 能 的 最 优 算法 是 平方 1 
二 级别 的 。 为 算法 在 最 坏 情 况 下 ， 

的 运行 时 间 给 出 一 个 下 界 的 思 A 


常 有 意义 的 ， 我 们 会 在 2.2 节 中 学 习 排序 时 再 次 表 1.4.8 运行 时 间 的 总 结 




















复杂 的 下 界 是 很 难 找到 的 ， 但 它 非 常 有 助 于 指 算 法 运行 时 间 的 增长 数量 级 
引 我 们 追求 更 加 有 效 的 算法 。 TwoSum ba 
本 节 中 所 讨论 的 例子 为 我 们 学 习 本 书 中 的 其 他 算法 TwoSumFast NogN 
打下 了 基础 。 在 本 书 中 ， 我 们 会 按照 以 下 方式 解决 各 种 ThresSun ” 
新 的 问题 。 ThreeSumFast NlogN 
100 ™ 1000 Ny2 NlgN 
pa —ThreeSum 
售 80 800 
目 自 
60 3 600 
区 os 至 
汪 所 
加 0 加 400 
20 200 
TwoSumFast ~ 人 ThreesuaFast 
4NIgN 
1K 2K 4K 1K 2K 4K 
问题 的 规模 N 问题 的 规模 入 
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图 1.4.6 解决 2-sum 和 3-sum 问题 的 各 种 算法 的 成 本 


1.4 算法 分 析 < 121 


口 实现 并 分 析 该 问题 的 一 种 简单 的 解法 。 我 们 通常 将 它们 称 为 暴力 算法 ， 例 如 ThreeSum 和 
TwoSum。 
口 考查 算法 的 各 种 改进 ， 它 们 通常 都 能 降低 算法 所 需 的 运行 时 间 的 增长 数量 级 ， 例 如 
TwoSumFast 和 ThreeSumFast- 
口 用 实验 证 明 新 的 算法 更 快 。 
在 许多 情况 下 ， 我 们 会 学 习 解决 同一 个 问题 的 多 种 算法 ， 因 为 对 于 实际 问题 来 说 运行 时 间 只 是 
选择 算法 时 所 要 考虑 的 各 种 因素 之 一 。 在 本 书 中 我 们 会 在 解决 各 种 基础 问题 时 逐渐 理解 这 一 点 。 


1.4.6 ”倍率 实验 


下 面 这 种 方法 可 以 简单 有 效 地 预测 任意 程序 的 性 能 并 判断 它们 的 运行 时 间 大 致 的 增长 数量 级 。 
口 开发 一 个 输入 生成 器 来 产生 实际 情况 下 的 各 种 可 能 的 输入 ( 例如 DoublingTest 中 的 
timeTrial0 方法 能 够 生成 随机 整数 ) 。 
口 运行 下 方 的 DoublingRatio 程序 ， 它 是 DoublingTest 的 修改 版本， 能够 计算 每 次 实验 和 上 一 
次 的 运行 时 间 的 比值 。 
口 反复 运行 直到 该 比值 趋 近 于 极限 2*。 
这 个 实验 对 于 比值 没有 极限 的 算法 无 效 ， 但 它 仍然 适用 于 许多 程序 ， 我 们 可 以 得 出 以 下 结论 。 
口 它们 的 运行 时 间 的 增长 数量 级 约 为 站 。 
口 要 预测 一 个 程序 的 运行 时 间 ， 将 上 次 观察 得 到 的 运行 时 间 乘 以 2 并 将 N 加 倍 ， 如 此 反复 。 
如 果 你 希望 预测 的 输入 规模 不 是 N 乘 以 2 的 等 , 可 以 相应 地 调整 这 个 比例 ( 请 见 练习 1.4.9 ) 。 
如 下 所 示 ，ThreeSum 的 比例 约 为 8， 因此 我 们 可 以 预测 程序 对 于 N=16 000、32 000 和 64 000 
的 运行 时 间 将 分 别 为 408.8、3270.4 和 26 163.2 秒 ， 也 就 是 处 理 8000 个 整数 所 需 的 时 间 ( 51.1 秒 ) 
连续 乘 以 8 即 可 。 


实验 程序 
public class DoublingRatio 试验 结果 
{ 
public static double timeTriat(Cint N) % java DoublingRatio 
// 参见 Doub1ingTest (请 见 1.4.2.3 节 实验 程序 ) 人 
public static void main(String[] args) 500 0.0 4.8 
{ 1000 0.1 6.9 
double prev = timeTrial (125); 2000 0.8 7.7 
for Cint N = 250; true; N += N) 4000 6.4 8.0 
{ 8000 51.1 8.0 
double time = timeTrial(N); 
StdOut .printf("%6d %7.1f *", N, time); 
StdOut.printf("%5.1f\n", time/prev); 预测 
prev = time; 
} 16000 408.8 8.0 
} 32000 3270.4 8.0 
} 64000 26163.2 8.0 
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该 测试 基本 类 似 于 1.4.2.3 节 所 描述 的 过 程 ( 运行 实验 , 绘 出 对 数 图 像 得 到 运行 时 间 为 aN* 的 猜想 ， 
从 直线 的 斜率 得 到 6 的 值 ， 然 后 算出 a) ， 但 它 更 容易 使 用 。 事 实 上 ， 可 以 手工 通过 DoublingRatio 
准确 地 预测 程序 的 性 能 。 在 比例 趋 近 于 极限 时 ， 只 需要 不 断 乘 以 该 比例 即 可 得 到 更 大 规模 的 问题 的 
运行 时 间 。 这 里 ， 增 长 数量 级 的 近似 模型 是 一 个 睾 次 法 则 ， 指 数 为 该 比例 的 以 2 为 底 的 对 数 。 
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为 什么 这 个 比例 会 趋向 于 一 个 常数 ?简单 的 数学 计算 显示 我 们 讨论 过 的 所 有 常见 的 增长 数量 级 
函数 ( 指数 级 别 除外 ) 均 会 出 现 这 种 情况 : 


命题 C。( 售 率 定理 ) 如 果 TCV) ~ aNlgN， 那 么 T(2N)/T(N) ~ 2 


证 明 。T(2N)/T(N) = a(2N)'lg(2NYaN'lgN 
=2(1+lg2/lgN) 
~2 


一 般 来 说 ， 数 学 模型 中 的 对 数 项 是 不 能 忽略 的 ， 但 在 倍率 假设 中 它 在 预测 性 能 的 公式 中 的 作用 
并 不 那么 重要 。 

在 有 性 能 压力 的 情况 下 应 该 考虑 对 编写 过 的 所 有 程序 进行 倍率 实验 一 一 这 是 一 种 估计 运行 时 间 
的 增长 数量 级 的 简单 方法 ， 或 许 它 能 够 发 现 一 些 性 能 问题 ， 比 如 你 的 程序 并 没有 想象 的 那样 高 效 。 
一 般 来 说 ， 我 们 可 以 用 以 下 方式 对 程序 的 运行 时 间 的 增长 数量 级 作出 假设 并 预测 它 的 性 能 。 
1.4.6.1 评估 它 解决 大 型 问题 的 可 行 性 

对 于 编写 的 每 个 程序 ， 你 都 需要 能 够 回答 这 个 基本 问题 : “该 程序 能 在 可 接受 的 时 间 内 处 理 这 
些 数据 吗 ? ”对 于 大 量 数据 ， 要 回答 这 个 问题 我 们 需要 一 个 比 乘 以 2 更 大 的 系数 ( 比如 10 ) 来 进行 
推断 ， 如 表 1.4.9 所 示 。 无 论 是 投资 银行 家 处 理 每 日 的 金融 数据 还 是 工程 师 对 设计 进行 模拟 测试 ， 
定期 运行 需要 若干 个 小 时 才能 完成 的 程序 是 很 常见 的 ， 表 1.4.9 的 重点 也 就 是 这 些 情况 。 了 解 程序 
的 运行 时 间 的 增长 数量 级 能 够 为 你 提供 精确 的 信息 ， 从 而 理解 你 能 够 解决 的 问题 规模 的 上 限 。 理 解 
诸如 此 类 的 问题 ， 是 研究 性 能 的 首要 原因 。 没 有 这 些 知识 ， 你 将 对 一 个 程序 所 需 的 时 间 一 无 所 知 ; 
而 如 果 你 有 了 它们 ， 一 张 信 封 的 背面 就 足够 你 计算 出 运行 所 需 的 时 间 并 采取 相应 的 行动 。 
1.4.6.2 评估 使 用 更 快 的 计算 机 所 产生 的 价值 

你 可 能 会 面 对 的 另 一 个 基本 问题 是 ，“ 如 果 我 能 够 得 到 一 台 更 快 的 计算 机 ， 解 决 问题 的 速度 能 
够 加 快 多 少 ? ”一 般 来 说 ， 如 果 新 计算 机 比 老 的 快 * 倍 ， 运 行 时 间 也 将 变 为 原来 的 x 分 之 一 。 但 你 
一 般 都 会 用 新 计算 机 来 处 理 更 大 规模 的 问题 ， 这 将 会 如 何 影响 所 需 的 运行 时 间 呢 ? 同样 ， 增 长 的 数 
量 级 信息 也 正 是 你 回答 这 个 问题 所 需要 的 。 

著名 的 摩尔 定律 告诉 我 们 ，18 个 月 后 计算 机 的 速度 和 内 存 容 量 都 会 翻 一 番 ，5 年 后 计算 机 的 速 
度 和 内 存 容量 都 会 变 为 现在 的 10 倍 。 表 1.4.9 说 明 如 果 你 使 用 的 是 平方 或 者 立方 级 别 的 算法 ， 摩尔 
定律 就 不 适用 了 。 进 行 倍率 测试 并 检查 随 着 输入 规模 的 倍增 前 后 运行 时 间 之 比 是 趋向 于 2 而 非 4 或 
者 8 即 可 验证 这 种 情况 。 





表 1.4.9 根据 增长 的 数量 级 函数 作出 的 预测 





间 的 增长 数量 级 处 理 输入 规模 为 N 的 数据 需要 若干 小 时 的 某 个 程序 
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1.4.7 ”注意 事项 

在 对 程序 的 性 能 进行 仔细 分 析 时 ， 得 到 不 一 致 或 是 有 误导 性 的 结果 的 原因 可 能 有 许多 种 。 它 们 
都 是 由 于 我 们 的 猜想 基于 的 一 个 或 多 个 假设 并 不 完全 正确 所 造成 的 。 我 们 可 以 根据 新 的 假设 得 出 新 
的 猜想 ， 但 我 们 考虑 的 细节 越 多 ， 在 分 析 中 需要 注意 的 方面 也 就 越 多 。 
1.4.7.1 大 常数 

在 首 项 近似 中 ， 我 们 一 般 会 忽略 低级 项 中 的 常数 系数 ， 但 这 可 能 是 错 的 。 例 如 ， 当 我 们 取 函 
数 2MN+eN 的 近似 为 ~ 2W 时 ,我 们 的 假设 是 e 很 小 。 如 果 事 实 不 是 这 样 ( 比如 c 可 能 是 10 或 是 
105) ， 该 近似 就 是 错误 的 。 因 此 ， 我 们 要 对 可 能 的 大 常数 保持 敏感 。 
1.4.7.2 ” 非 决 定性 的 内 循环 

内 循环 是 决定 性 因素 的 假设 并 不 总 是 正确 的 。 错 误 的 成 本 模型 可 能 无 法 得 到 真正 的 内 循环 ， 问 
题 的 规模 N 也 许 没有 大 到 对 指令 的 执行 频率 的 数学 描述 中 的 首 项 大 大 超过 其 他 低级 项 并 可 以 忽略 它 
们 的 程度 。 有 些 程序 在 内 循环 之 外 也 有 大 量 指令 需要 考虑 。 换 名 话说， 成 本 模型 可 能 还 需要 改进 。 
1.4.7.3 指令 时 间 

每 条 指令 执行 所 需 的 时 间 总 是 相同 的 假设 并 不 总 是 正确 的 。 例 如 ， 大 多 数 现代 计算 机 系统 都 会 
使 用 缓存 技术 来 组 织 内 存 ， 在 这 种 情况 下 访问 大 数组 中 的 若干 个 并 不 相 邻 的 元 素 所 需 的 时 间 可 能 很 
长 。 如 果 让 DoublingRatio 运行 的 时 间 长 一 些 ， 你 可 能 可 以 观察 到 缓存 对 ThreeSum 所 产生 的 效果 。 
在 运行 时 间 的 比例 看 似 收敛 到 8 以 后 ， 由 于 缓存 ， 对 于 大 数组 该 比例 也 可 能 突然 变 为 很 大 的 值 。 
1.4.7.4 ”系统 因素 

一 般 来 说 ， 你 的 计算 机 总 是 同时 运行 着 许多 程序 。Java 只 是 争夺 资源 的 众多 应 用 程序 之 一 ， 而 
且 Java 本 身 也 有 许多 能 够 大 大 影响 程序 性 能 的 选项 和 设置 。 某 种 垃圾 收集 器 或 是 JIT 编译 器 或 是 下 
在 从 因特网 中 进行 的 下 载 都 可 能 极 大 地 影响 实验 的 结果 。 这 些 因素 可 能 会 干扰 到 实验 必须 是 可 重 现 
的 这 条 科学 研究 的 基本 原则 ， 因 为 此 时 此 刻 计算 机 中 所 发 生 的 一 切 是 无 法 再 次 重 现 的 。 原 则 上 来 说 
此 时 系统 中 运行 的 其 他 程序 应 该 是 可 以 忽略 或 可 以 控制 的 。 
1.4.7.5 不 分 伯仲 

在 我 们 比较 执行 相同 任务 的 两 个 程序 时 ， 常 常 出 现 的 情况 是 其 中 一 个 在 某 些 场景 中 更 快 而 在 另 
一 些 场景 中 更 慢 。 我 们 已 经 提 到 过 的 一 些 因素 可 能 会 造成 这 种 差异 。 有 些 程序 员 ( 以 及 一 些 学 生 ) 
特别 喜欢 投入 大 量 精力 进行 比赛 并 找 出 “最 佳 ”的 实现 ， 但 此 类 工作 最 好 还 是 留 给 专家 。 
1.4.7.6 ”对 输入 的 强烈 依赖 

在 研究 程序 的 运行 时 间 的 增长 数量 级 时 ， 我 们 首先 作出 的 几 个 假设 之 一 就 是 运行 时 间 应 该 和 输 
人 相对 无 关 。 当 这 个 条 件 无 法 满足 时 ,我 们 很 可 能 无 法 得 到 一 致 的 结果 或 是 验证 我 们 的 狂想 。 例 如 ， 
假设 我 们 为 回答 : “输入 中 是 否 存在 和 为 0 的 三 个 整数 ? ”而 修改 ThreeSum 并 返回 boolean 值 ， 
将 cnt++ 替换 为 return true 并 在 最 后 加 上 return false 作为 结尾 ， 那 么 如 果 输 入 中 的 头 三 个 
整数 的 和 为 0， 该 程序 的 运行 时 间 的 增长 数量 级 为 常数 级 别 ;如 果 输入 不 含有 这 样 的 三 个 整数 ， 程 
序 的 运行 时 间 的 增长 数量 级 则 为 立方 级 别 。 
1.4.7.7 多 个 问题 参量 

我 们 过 去 的 重点 一 直 是 使 用 仅 需 要 一 个 参量 的 函数 来 衡量 程序 的 性 能 ， 参 量 一 般 是 命令 行 参 数 
或 是 输入 的 规模 。 但 是 ， 多 个 参量 也 是 可 能 的 。 典 型 的 例子 是 需要 构造 一 个 数据 结构 并 使 用 该 数据 
结构 进行 一 系列 操作 的 算法 。 在 这 种 应 用 程序 中 数据 结构 的 大 小 和 操作 的 次 数 都 是 问题 的 参量 。 我 
们 已 经 见 过 一 个 这 样 的 例子 ， 即 对 使 用 二 分 查找 的 白 名 单 问题 的 分 析 ， 其 中 白 名 单 中 有 入 个 整数 而 
输入 中 有 M 个 整数 ， 运 行 时 间 一 般 和 MlogN 成 正比 。 
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尽管 需要 注意 的 问题 很 多 ， 对 于 每 个 程序 员 来 说 ， 对 程序 的 运行 时 间 的 增长 数量 级 的 理解 都 是 
非常 有 价值 的 ， 而 且 我 们 这 里 所 描述 的 方法 也 都 十 分 强大 并 且 应 用 范围 广泛 。Knuth 证 明了 原则 上 
我 们 只 要 正确 并 完整 地 使 用 了 这 些 方法 就 能 够 对 程序 作出 详细 准确 的 预测 。 计 算 机 系统 一 般 都 非常 
复杂 ， 完 整 精确 的 分 析 最 好 留 给 专家 们 ， 但 相同 的 方法 也 可 以 有 效 地 近似 估计 出 任何 程序 所 需 的 运 
行 时 间 。 火 第 科学 家 需要 大 致知 道 一 枚 试验 火箭 的 着 陆地 点 是 在 大 海里 还 是 在 城市 中 ; 医学 研究 者 
需要 知道 一 次 药物 测试 是 会 杀 死 还 是 治愈 实验 对 象 ， 任何 使 用 计算 机 程序 的 科学 家 或 是 工程 师 也 应 
该 能 够 预计 它 是 会 运行 一 秒 钟 还 是 一 年 。 


1.4.8 处理 对 于 输入 的 依赖 

对 于 许多 问题 ， 刚 才 所 提 到 的 注意 事项 中 最 突出 的 一 个 就 是 对 于 输入 的 依赖 ， 因 为 在 这 种 情况 
下 程序 的 运行 时 间 的 变化 范围 可 能 非常 大 。1.4.7.6 节 中 ThreeSum 的 修改 版 本 的 运行 时 间 的 范围 根据 
输入 的 不 同 可 能 在 常数 级 别 到 立方 级 别 之 间 ， 因 此 如 果 我 们 想 要 预测 它 的 性 能 ， 就 需要 对 它 进行 更 
加 细致 的 分 析 。 在 这 里 我 们 会 简略 讨论 一 些 有 效 的 方法 ,我 们 会 在 学 习 本 书 中 的 其 他 算法 时 用 到 它们 。 
1.4.8.1 输入 模型 

一 种 方法 是 更 加 小 心地 对 我 们 所 要 解决 的 问题 所 处 理 的 输入 建 模 。 例 如 ， 我 们 可 能 会 假设 
ThreeSum 的 所 有 输入 均 为 随机 int 值 。 使 用 这 种 方法 的 困难 主要 有 两 点 : 

口 输入 模型 可 能 是 不 切实 际 的 ; 

口 对 输入 的 分 析 可 能 极端 困难 ， 所 需 的 数学 技巧 远 非 一 般 的 学 生 或 者 程序 员 所 能 掌握 。 

其 中 前 者 更 为 重要 ， 因 为 计算 的 目的 就 是 发 现 输入 的 性 质 。 例 如 ， 如 果 我 们 编写 了 一 个 程序 来 
处 理 基因 组 ， 我 们 怎样 才能 估计 出 它 在 处 理 不 同 的 基因 组 时 的 性 能 呢 ? 描述 自然 界 中 的 基因 组 的 优 
秀 模型 正 是 科学 家 们 所 寻找 的 ， 因 此 预计 我 们 的 程序 在 处 理 自然 界 中 得 到 的 数据 时 所 需 的 运行 时 间 
实际 上 也 是 在 为 寻找 这 个 模型 做 出 贡献 ! 第 二 个 困难 只 和 最 重要 的 几 个 算法 的 数学 结果 有 关 ， 我 们 
将 会 看 到 几 个 用 简单 可 靠 的 输入 模型 加 上 经 典 的 数学 分 析 帮 助 我 们 预测 程序 性 能 的 例子 。 
1.4.8.2 ”对 最 坏 情况 下 的 性 能 的 课 证 

有 些 应 用 程序 要 求 程序 对 于 任意 输入 的 运行 时 间 均 小 于 某 个 指定 的 上 限 。 为 了 提供 这 种 性 能 保 
证 ， 理 论 研究 者 们 要 从 极度 悲观 的 角度 来 估计 算法 的 性 能 ， 在 最 坏 情况 下 程序 的 运行 时 间 是 多 少 ? 
例如 ， 这 种 保守 的 做 法 对 于 运行 在 核反应 堆 、 心 脏 起 搏 器 或 者 刹车 控制 器 之 中 的 软件 可 能 是 十 分 必 
要 的 。 我 们 希望 保证 此 类 软件 能 够 在 某 个 指定 的 时 间 范 围 内 完成 任务 ， 否 则 结果 会 非常 精 糕 。 科 学 
家 们 在 研究 自然 界 时 一 般 不 会 去 考虑 最 坏 的 情况 : 在 生物 学 中 ， 最 坏 的 情况 也 许 是 人 类 的 灭绝 ; 在 
物理 学 中 ， 最 坏 的 情况 也 许 是 宇宙 的 结束 。 但 是 在 计算 机 系统 中 最 坏 情况 是 非常 现实 的 忧虑 ， 因 为 
程序 的 输入 可 能 来 自 另外 一 个 ( 可 能 是 恶意 的 ) 用 户 而 非 自 然 界 。 例 如 ， 没 有 使 用 提供 性 能 保证 算 
法 的 网 站 无 法 抵御 拒绝 服务 攻击 ， 这 是 一 种 黑客 用 大 量 请 求 淹没 服务 器 的 攻击 ， 会 使 网 站 的 运行 速 
度 相 比 正常 状态 大 幅 下 降 。 因 此 ， 我 们 的 许多 算法 的 设计 已 经 考虑 了 为 性 能 提供 保证 ， 例 如 ， 


命题 D。 在 Bag ( 请 见 算法 1.4) 、Stack (请 见 算法 1.2) 和 Queue (请 见 算法 1.3 ) 的 链表 实现 
中 所 有 的 操作 在 最 坏 情况 下 所 需 的 时 间 都 是 常数 级 别 的 。 


证 明 。 由 代码 可 知 ， 每 个 操作 所 执行 的 指令 数量 均 小 于 一 个 很 小 的 常数 。 注 意 : 该 论证 依赖 于 
一 个 (合理 的 ) 假设 ， 即 Java 系统 能 够 在 常数 时 间 内 创建 一 个 新 的 Node 对 象 。 
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1.4.8.3 ”随机 化 算法 

为 性 能 提供 保证 的 一 种 重要 方法 是 引入 随机 性 。 例 如 ,我 们 将 在 2.3 节 中 学 习 的 快速 排序 算法 ( 可 
能 是 使 用 最 广泛 的 排序 算法 ) 在 最 坏 情况 下 的 性 能 是 平方 级 别 的 ， 但 通过 随机 打 乱 输入 ， 根 据 概率 
我 们 能 够 保证 它 的 性 能 是 线性 对 数 的。 每 次 运行 该 算法 ， 它 所 需 的 时 间 均 不 相同 ， 但 它 的 运行 时 间 
超过 线性 对 数 级 别 的 可 能 性 小 到 可 以 忽略 。 与 此 类 似 ， 我 们 将 在 3.4 节 中 学 习 的 用 于 符号 表 的 散 列 
算法 (同样 也 可 能 是 使 用 最 广泛 的 同类 算法 ) 在 最 坏 情况 下 的 性 能 是 线性 级 别 的 ， 但 根据 概率 我 们 
可 以 保证 它 的 运行 时 间 是 常数 级 别 的 。 这 些 保证 并 不 是 绝对 的 ， 但 它们 失效 的 可 能 性 甚至 小 于 你 的 
电脑 被 闪电 击 中 的 可 能 性 。 因 此 ， 这 种 保证 在 实际 中 也 可 以 用 来 作为 最 坏 情况 下 的 性 能 保证 。 
1.4.8.4 ”操作 序列 

对 于 许多 应 用 来 说 ,算法 的 “输入 ”可 能 并 不 只 是 数据 ， 还 包括 用 例 所 进行 的 一 系列 操作 的 顺 
序 。 例 如 ， 对 于 一 个 下 压 栈 来 说 ， 用 例 先 压 人 N 个 值 然后 再 将 它们 全 部 弹出 的 所 得 到 的 性 能 ， 和 入 
次 压 人 弹出 的 混合 操作 序列 所 得 到 的 性 能 可 能 大 不 相同 。 我 们 的 分 析 要 将 这 些 情况 都 考虑 进去 ( 或 
者 包含 一 个 操作 序列 的 合理 模型 ) 。 
1.4.8.5 均 摊 分 析 

相应 地 ， 提 供 性 能 保证 的 另 一 种 方法 是 通过 记录 所 有 操作 的 总 成 本 并 除 以 操作 总 数 来 将 成 本 均 
挫 。 在 这 里 ， 我 们 可 以 允许 执行 一 些 昂贵 的 操作 ， 但 保持 所 有 操作 的 平均 成 本 较 低 。 这 种 类 型 分 析 
的 典型 例子 是 我 们 在 1.3 节 中 对 基于 动态 调整 数组 大 小 的 Stack 数据 结构 ( 请 见 1.3.2.5 节 的 算法 1.1 ) 
的 研究 。 简 单 起 见 ， 假 设 入 是 2 的 矫 。 如 果 数 据 结构 初始 为 空 ，N 次 连续 的 push() 调用 需要 访问 














数组 元 素 多 少 次 ? 计算 这 个 答案 很 简单 ， 数 组 访问 的 次 数 为 198 
N+4+8+16+…+2N=5N-_4 
其 中 , 首 项 表示 N 次 pushO 调用 ， 


其 余 的 项 表示 每 次 数组 长 度 加 倍 时 初始 








化 数据 结构 所 访问 数组 的 次 数 。 因 此 ， 时 128 
每 次 操作 访问 数组 的 平均 次 数 为 常数 ， 时 
但 最 后 一 次 操作 所 需 的 时 间 是 线性 的 。 入 a ， 
红 点 表示 的 是 累计 
这 种 计算 被 称 为 均 失 分 析 ， 因 为 我 们 将 人 SR 
少量 昂贵 操作 的 成 本 通过 各 种 大 量 廉价 dO 近 作 的 数 和 
的 操作 摊 平 了 。VisualAccumulator 
能 够 很 容易 地 展示 这 个 过 程 , 如 图 1.4.7 图 1.4.7 向 一 个 RandomBag 对 象 中 添加 元 素 时 的 


均 摊 成 本 〈 另 见 彩 插 ) 


所 示 。 


命题 E。 在 基于 可 调整 大 小 的 数组 实现 的 Stack 数据 结构 中 《请 见 算法 1.1 ) ， 对 空 数 据 结构 所 
进行 的 任意 操作 序列 对 数组 的 平均 访问 次 数 在 最 坏 情况 下 均 为 常数 。 


简略 证 明 。 对 于 每 次 使 数组 大 小 增加 ( 假设 大 小 从 入 变 为 2N) 的 push() 操作 ， 对 于 NM2+2 到 
N 之 间 的 任意 大， 考虑 使 栈 大 小 增长 到 上 的 最 近 N12-1 次 push() 操作 。 将 使 数组 长 度 加 倍 所 需 
的 4N 次 访问 和 所 有 push() 操作 所 需 的 N/2 次 数组 访问 (每 次 push() 操作 均 需 访问 一 次 数组 ) 
取 平 均 ， 我 们 可 以 得 到 每 次 操作 的 平均 成 本 为 9 次 数组 访问 。 要 证 明 长 度 为 M 的 任意 操作 序列 ， 
所 需 的 数组 访问 次 数 和 M 成 正比 则 更 加 复杂 (请 见 练习 1.4.32) 。 
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这 种 分 析 应 用 范围 很 广 ， 我 们 会 使 用 可 动态 调整 大 小 的 数组 作为 数据 结构 实现 本 书 中 的 若干 
算法 。 

算法 分 析 者 的 任务 就 是 尽 可 能 地 揭示 关于 某 个 算法 的 更 多 信息 ， 而 程序 员 的 任务 则 是 利用 这 些 
信息 开发 有 效 解决 现实 问题 的 程序 。 在 理想 状态 下， 我 们 希望 根据 算法 能 够 得 到 清晰 简洁 的 代码 并 
能 够 为 我 们 感 兴趣 的 输入 提供 良好 的 保证 和 性 能 。 我 们 在 本 章 中 讨论 的 许多 经 典 算法 之 所 以 对 众多 
应 用 都 十 分 重要 就 是 因为 它们 具备 这 些 性 质 。 以 它们 作为 样板 ， 在 编程 中 遇 到 典型 问题 时 你 也 能 独 
立 给 出 很 好 的 解决 方法 。 


1.4.9 内存 

和 运行 时 间 一 样 ， 一 个 程序 对 内 存 的 使 用 也 和 物理 世界 直接 相关 : 计算 机 中 的 电路 很 大 一 部 分 
的 作用 就 是 帮助 程序 保存 一 些 值 并 在 稍 后 取出 它们 。 在 任意 时 刻 需要 保存 的 值 越 多 ， 需 要 的 电路 也 
就 越 多 。 你 可 能 知道 计算 机 能 够 使 用 的 内 存 上 限 ( 知道 这 一 点 的 人 应 该 比 知道 运行 时 间 限 制 的 人 要 
多 ) 因为 你 很 可 能 已 经 在 内 存 上 花 了 不 少 额外 的 支出 。 

计算 机 上 的 Java 对 内 存 的 使 用 经 过 了 精心 的 设计 ( 程序 的 每 个 值 在 每 次 运行 时 所 需 的 内 存量 都 
是 一 样 的 ) ， 但 实现 了 Java 的 设备 非常 多 ， 而 内 存 的 使 用 是 和 实现 相关 的 。 简 单 起 见 ， 我 们 用 典型 
这 个 词 暗 示 和 机 器 相关 的 值 

Java 最 重要 的 特性 之 一 就 是 它 的 内 存 分 配 系统 。 它 的 任务 是 把 你 从 对 内 存 的 操作 之 中 解脱 出 来 。 
显然 ， 你 肯定 已 经 知道 应 该 在 适当 的 时 候 利用 这 个 功能 ， 但 是 你 也 应 该 ( 至 少 是 大 概 ) 知道 程序 对 
内 存 的 需求 在 何 时 会 成 为 解决 问题 的 障碍 。 

分 析 内 存 的 使 用 比分 析 程序 所 需 的 运行 时 间 要 简单 得 多 ， 主 要 原因 是 它 所 涉及 的 程序 语句 较 少 
( 只 有 声明 语句 ) 且 在 分 析 中 我 们 会 将 复杂 的 对 象 简化 为 原始 数据 类 型 ， 而 原始 数据 类 型 的 内 存 使 








并 汇总 即 可 。 例 如 ,因为 Java 的 int 数 据 类 型 是 -2 147 483 648 到 2 147 483 647 之 间 的 整数 值 的 集合 ， 
即 总 数 为 22 个 不 同 的 值 ， 典 型 的 Java 实现 使 用 32 位 来 表示 int 值 。 其 他 原始 数据 类 型 的 内 存 使 
用 也 是 基于 类 似 的 考虑 : 典型 的 Java 实现 使 用 8 位 表示 字 节 , 用 2 字 节 ( 16 位 ) 表示 一 个 char 值 ， 
用 4 字 节 (32 位 ) 表示 一 个 int 值 , 用 8 字 节 (64 位 ) 表示 一 个 double 或 者 1ong 值 , 用 1 字 节 
表示 一 个 boolean 值 ( 因为 计算 机 访问 内 存 的 方式 都 是 一 次 1 字 节 ) ， 见 表 1.4.10。 根 据 可 用 内 存 
的 总 量 就 能 够 计算 出 保存 这 些 值 的 极限 数量 。 例 如 ， 如 果 计 算 机 有 1 GB 内 存 ( 10 亿 字 节 ) ,那么 
同一 时 间 最 多 能 在 内 存 中 保存 3200 万 个 int 值 或 是 1600 万 个 double 值 。 

从 另 一 方面 来 说 ， 对 内 存 使 用 的 分 析 和 硬件 以 及 表 14 10 原始 数据 类 型 的 常见 内 存 、 需 求 
Java 的 不 同 实现 中 的 各 种 差异 有 关 ， 因 此 我 们 举 出 的 





这 个 特定 的 例子 并 不 是 一 成 不 变 的 ， 你 应 该 以 它 为 参 要 2 
考 来 学 习 在 条 件 允 许 的 情况 下 如 何 分 析 内 存 的 使 用 。 oe 1 
例如 ， 许 多 数据 结果 都 涉及 对 机 器 地 址 的 表示 ， 而 在 char 2 
各 种 计算 机 中 一 个 机 器 地 址 所 需 的 内 存 又 各 有 不 同 。 int 4 
为 了 保持 一 致 ， 我 们 假设 表示 机 器 地 址 需要 8 字 节 ， float 4 
这 是 现在 广泛 使 用 的 64 位 构架 中 的 典型 表示 方式 , 许 1ong 8 
多 老式 的 32 位 构架 只 使 用 4 字 节 表示 机 器 地 址 。 double 8 





1.4.9.1 对 象 
要 知道 一 个 对 象 所 使 用 的 内 存量 ， 需 要 将 所 有 实例 变量 使 用 的 内 存 与 对 象 本 身 的 开销 ( 一 般 是 
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16 字 节 ) 相 加 。 这 些 开销 包括 一 个 指向 对 象 的 类 的 整数 的 封装 对 象 24 字 节 
引用 、 垃 圾 收集 信息 以 及 同步 信息 。 另 外 ， 一 般 内 存 ee 
的 使 用 都 会 被 填充 为 8 字 节 ( 64 位 计算 机 中 的 机 器 字 ) 让 了 
的 倍数 。 例 如 ,一 个 Integer 对 象 会 使 用 24 字 节 ( 16 em int 位 
字 节 的 对 象 开销 ，4 字 节 用 于 保存 它 的 int 值 以 及 4 
个 填充 字 节 )。 类 似 地 , 一 个 Date 对 象 (请 见 表 1.2.12 ) Dee 对 象 ,pate za 
需要 使 用 32 字 节 : 16 字 节 的 对 象 开销 ,3 个 int 实 orlvae int days | wa 
例 变量 各 需 4 字 节 ， 以 及 4 个 填充 字 节 。 对 象 的 引用 | 
- 般 都 是 一 个 内 存 地址 ， 因 此 会 使 用 8 字 节 。 例 如 ， i EE 
-个 Counter 对 象 ( 请 见 表 1.2.11 ) 需 要 使 用 32 字 节 : 的 订 | 
16 字 节 的 对 象 开 销 ，8 字 节 用 于 它 的 String 型 实例 
变量 (一 个 引用 ) ,4 字 节 用 于 int 实例 变量 ， 以 及 ee 
4 个 填充 字 节 。 当 我 们 说 明 一 个 引用 所 占 的 内 存 时 ， {private String nane; | sa 
我 们 会 单独 说 明 它 所 指向 的 对 象 所 占用 的 内 存 ， 因 此 Pri Did We 
这 个 内 存 使 用 总 量 并 没有 包含 String 值 所 使 用 的 内 ame | < 的 引用 
存 。 常 见 对 象 的 内 存 需求 列 在 了 图 1.4.8 中 本 一 it 人 
1.4.9.2 链表 > 
岩 套 的 非 静 态 ( 内 部 ) 类 ,例如 我 们 的 Node 类 ( 请 。 Node 对 象 (内 部 类 )。 -人 证 
见 1.3.3.1 节 ) ,还 需要 额外 的 8 字 节 (用 于 一 个 指 private Tten tten; | nm 
向 外 部 类 的 引用 ) 。 因 此 ，-- 个 Node 对 象 需要 使 PE 
用 40 字 节 (16 字 节 的 对 象 开 请 ， 指 向 Ttem 和 Node 
对 象 的 引用 各 需 8 字 节 ， 另 外 还 有 8 字 节 的 额外 开 To 
销 ) 。 因 为 Integer 对 象 需 用 24 字 节 ， 一 个 含 next 之? 











及 个 整数 的 基于 链表 的 栈 ( 请 见 算法 1.2 ) 需要 使 
用 (32+64N ) 字 节 ， 包 括 Stack 对 象 的 16 字 节 的 开 
销 , 引 用 类 型 实例 变量 8 字 节 , int 型 实例 变量 4 字 节 ， 
4 个 填充 字 节 ， 每 个 元 素 需 要 64 字 节 ， 一 个 Node 对 象 的 40 字 节 和 一 个 Integer 对 象 的 24 字 节 。 |[201 
1.4.9.3 数组 

图 1.4.9 总 结 了 Java 中 的 各 种 类 型 的 数组 对 内 存 的 典型 需求 。Java 中 数组 被 实现 为 对 象 ， 它 们 
一 般 都 会 因为 记录 长 度 而 需要 额外 的 内 存 。 一 个 原始 数据 类 型 的 数组 一 般 需要 24 字 节 的 头 信息 ( 16 
字 节 的 对 象 开 销 ，4 字 节 用 于 保存 长 度 以 及 4 填充 字 节 ) 再 加 上 保存 值 所 需 的 内 存 。 例 如 ， 一 个 含 
有 AN 个 int 值 的 数组 需要 使 用 ( 24 + 4N) 字 节 ( 会 被 填充 为 8 的 倍数 ) ,一 个 含有 NN 个 double 
值 的 数组 需要 使 用 (24 + 8N ) 字 节 。 一 个 对 象 的 教 组 就 是 一 个 对 象 的 引用 的 数组 ， 所 以 我 们 应 该 在 
对 象 所 需 的 内 存 之 外 加 上 引用 所 需 的 内 存 。 例 如 ， 一 个 含有 N 个 Date 对 象 ( 请 见 表 1.2.12 ) 的 数 
组 需要 使 用 24 字 节 (数组 开销 ) 加 上 8N 字 节 ( 所 有 引用 ) 加 上 每 个 对 象 的 32 字 节 ， 总 共 (24 + 
40N ) 字 节 。 二 维 数组 是 一 个 数组 的 数组 ( 每 个 数组 都 是 一 个 对 象 ) 。 例 如 , 一 个 MxN 的 double 
类 型 的 二 维 数组 需要 使 用 24 字 节 (数组 的 数组 的 开销 ) 加 上 8M 字 节 ( 所 有 元 素数 组 的 引用 ) 加 
上 24M 字 节 ( 所 有 元 素数 组 的 开销 ) 加 上 8MN 字 节 ( M 个 长 度 为 N 的 double 类 型 的 数组 ) ， 总 
共 (8MN+32M+24 ) ~ 8MN 字 节 ; 当 数组 元 素 是 对 象 时 计算 方法 类 似 ， 结 果 相 同 ， 用 来 保存 充满 
指向 数组 对 象 的 引用 的 数组 以 及 所 有 这 些 对 象 本 身 。 


图 1.4.8 典型 对 象 的 内 存 需求 
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int 值 的 数组 doub1e 值 的 数组 
int[] a = new int[N]; double[] < = new double[N]; 
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四 一 16 宁 节 
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N 个 double 。 2448N 字 节 
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Dater] d; doubleD 口 值 (8N 字 节 ) 
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总 计 : 24+8N + Nx32=24+40N 








总 结 
类 型 字 节 数 
int[] -4N 
double[] ~8N 
Date[] ~40N 


总 计 :24+8M + Mx(24+ 8N)=24+ 32M +8MN 
double[][] ~8NM 站 2 





图 1.4.9 int 值 、double 值 、 对 象 和 数组 的 数组 对 内 存 的 典型 需求 


1.4.9.4 字符 串 对 象 

我 们 可 以 用 相同 的 方式 说 明 Java 的 String 类 型 对 象 所 需 的 内 存 ， 只 是 对 于 字符 串 来 说 别名 是 
非常 常见 的 。String 的 标准 实现 含有 4 个 实例 变量 : 一 个 指向 字符 数组 的 引用 (8 字 节 ) 和 三 个 
int 值 (各 4 字 节 ) 。 第 一 个 int 值 描述 的 是 字符 数组 中 的 偏 移 量 ， 第 二 个 int 值 是 一 个 计数 器 
(字符 串 的 长 度 ) 。 按 照 图 1.4.9 中 所 示 的 实例 变量 名 ， ping value[offset] 到 
value[offset + count - 1] 中 的 字符 组 成 。String 对 象 中 的 第 三 个 int 值 是 一 个 散 列 值 ， 它 
在 某 些 情况 下 可 以 节省 一 些 计算 ， 我 们 现在 可 以 忽略 它 。 因 此 ， 每 个 String 对 象 总 共 会 使 用 40 字 
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节 (16 字 节 表示 对 象 ， 三 个 int 实例 变量 各 需 4 字 节 ， 加 上 数组 引用 的 8 字 节 和 4 个 填充 字 节 ) 。 
这 是 除 字符 数组 之 外 字符 串 所 需 的 内 存 室 间 ， 所 有 字符 所 需 的 内 存 需 要 另 记 ， 因 为 String 的 char 
数组 常常 是 在 多 个 字符 串 之 间 共 享 的 。 因 为 String 对 象 是 不 可 变 的 ， 这 种 设计 使 String 的 实现 
在 能 够 在 多 个 对 象 都 含有 相同 的 value[] 数组 时 节省 内 存 。 
1.4.9.5 “字符 串 的 值 和 子 字符 串 

一 个 长 度 为 N 的 String 对 象 一 般 需要 使 用 40 字 节 ( String 对 象 本 身 ) 加 上 ( 24+2N ) 字 节 ( 字 
符 数组 ) ， 总 共 ( 64+2N ) 字 节 。 但 字符 串 处 理 经 常会 和 子 字 符 串 打交道 ， 所 以 Java 对 字符 串 的 表 





























示 希 望 能 够 避免 复制 字符 串 中 当 你 调用 substring( 方法 时 ， 就 创建 了 一 个 新 的 String 2 
对 象 (40 字 节 ) ， 但 它 仍然 重用 了 相同 的 value[] 数组 ， 因 此 该 字符 串 的 子 字符 串 只 会 使 用 40 字 “03 
节 的 内 存 。 含 有 原始 字符 串 的 字符 数组 的 别名 存在 于 子 字符 串 中 ， 子 字符 串 对 象 的 偏 移 量 和 长 度 域 
标记 了 子 字符 串 的 位 置 。 换 名 话说， 一 个 子 字符 囊 所 需 的 额外 内 存 是 一 个 常 雪 ， 构 造 一 个 子 字符 囊 
所 需 的 时 间 也 是 常数 ， 即 使 字符 串 和 子 字符 串 的 长 度 极 大 也 是 这 样 。 某 些 简陋 的 字符 申 表示 方法 在 
创建 子 字符 串 时 需要 复制 其 中 的 字符 ， 这 将 需要 线 。 String 对 象 (Java 库 ) 40 字 节 
性 的 时 间 和 空间 。 确 保 子 字符 串 的 创建 所 需 的 空间 lie lans Strine 
(以 及 时 间 ) 和 其 长 度 无 关 是 许多 基础 字符 串 处 理 a 
算法 的 效率 的 关键 所 在 。 字 符 串 的 值 与 子 字符 串 示 re 
例如 图 1.4.10 所 示 。 i 
这 些 基础 机 制 能 够 有 效 帮助 我 们 估计 大 量程 序 
对 内 存 的 使 用 情况 ， 但 许多 复杂 的 因素 仍然 会 使 这 
个 任务 变 得 更 加 困难 。 我 们 已 经 提 到 了 别名 可 能 产子 字符 串 举 例 
生 的 潜在 影响 。 另 外 ， 当 涉及 函数 调用 时 ， 内 存 的 Sr ore -CO », 
消耗 就 变 成 了 一 个 复杂 的 动态 过 程 ， 因 为 Java 系统 
的 内 存 分 配 机 制 扮演 一 个 重要 的 角色 ， 而 这 套 机 制 40 字 节 
又 和 Java 的 实现 有 关 。 例 如 ， 当 你 的 程序 调用 一 个 
方法 时 ， 系 统 会 从 内 存 中 的 一 个 特定 区 域 为 方法 分 
配 所 需要 的 内 存 ( 用 于 保存 局 部 变量 ) ， 这 个 区 域 
叫做 栈 (Java 系统 的 下 压 栈 ) 。 当 方法 返回 时 ， 它 
所 占用 的 内 存 也 被 返回 给 了 系统 栈 。 因 此 ， 在 递归 
程序 中 创建 数组 或 是 其 他 大 型 对 象 是 很 危险 的 ， 因 We 
为 这 意味 着 每 一 次 递归 调用 都 会 使 用 大 量 的 内 存 。 char 估 
当 通 过 new 创建 对 象 时 ， 系 统 会 从 堆 内 存 的 另 一 块 
特定 区 域 为 该 对 象 分 配 所 需 的 内 存 ( 这 里 的 堆 和 我 EN os 
们 将 在 2.4 节 学 习 的 二 又 堆 数据 结构 不 同 ) 。 而 且 ， 
你 要 记 住所 有 对 象 都 会 一 直 存在 ， 直 到 对 它 的 引用 
消失 为 止 。 此 时 系统 的 垃圾 回收 进程 会 将 它 所 占用 
的 内 存 收回 到 堆 中 。 这 种 动态 过 程 使 准确 估计 一 个 
程序 的 内 存 使 用 变 得 极为 困难 。 图 14.10 一 个 String 对 象 和 一 个 子 字符 串 


1.4.10 展望 
良好 的 性 能 是 非常 重要 的 。 速 度 极 慢 的 程序 和 不 正确 的 程序 一 样 无 用 ， 因 此 显然 有 必要 在 一 开 
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始 就 关注 程序 的 运行 成 本 ， 这 能 够 让 你 大 致 估计 出 所 要 解决 的 问题 的 规模 ， 而 聪明 的 做 法 是 时 刻 关 
注 程序 中 的 内 循环 代码 的 组 成 。 

但 在 编程 领域 中 ， 最 常见 的 错误 或 许 就 是 过 于 关注 程序 的 性 能 。 你 的 首要 任务 应 该 是 写 出 清 
晰 正确 的 代码 。 仅 仅 为 了 提高 运行 速度 而 修改 程序 的 事 最 好 留 给 专家 们 来 做 。 事 实 上 ， 这 么 做 常常 
会 降低 生产 效率 ， 因 为 它 会 产生 复杂 而 难以 理解 的 代码 。C.A.R. Hoare ( 快速 排序 的 发 明 人 ， 也 是 
一 位 推动 编写 清晰 而 正确 的 代码 的 领军 人 物 ) 曾 将 这 种 想法 总 结 为 : “不 成 熟 的 优化 是 所 有 罪恶 之 
源 。”Knuth 为 这 句 话 加 上 了 一 个 定语“ 在 编程 领域 中 ( 或 者 至 少 是 大 部 分 罪恶 ) ”。 另 外 ， 如 果 
降低 成 本 带 来 的 效益 并 不 明显 ， 那 么 对 运行 时 间 的 改进 就 不 值得 了 。 例 如 ， 如 果 一 个 程序 所 需 的 运 
行 时 间 只 是 一 瞬间 而 已 ， 那 么 即使 是 将 它 的 速度 提高 十 售 也 是 无 关 紧 要 的 。 即 使 程序 的 运行 需要 
好 几 分 钟 ， 实 现 并 调试 一 个 新 算法 所 需要 的 时 间 也 可 能 会 大 大 超过 直接 运行 一 个 稍微 慢 一 点 的 算 
法 一 一 这 种 时 候 就 应 该 让 计算 机 代劳 。 更 糟糕 的 情况 是 你 可 能 花 了 大 量 的 时 间 和 心血 去 实现 一 个 理 
论 上 能 够 改进 程序 的 想法 ， 但 实际 上 什么 也 没 发 生 。 

在 编程 领域 中 ， 第 二 常见 的 错误 或 许 是 完全 忽略 了 程序 的 性 能 。 较 快 的 算法 一 般 都 比 暴 力 算法 
更 复杂 ， 所 以 很 多 人 宁可 使 用 较 慢 的 算法 也 不 愿 应 付 复杂 的 代码 。 但 是 ， 几 行 优秀 的 代码 有 时 能 够 
给 你 带 来 巨大 的 收益 。 许 多 人 在 使 用 平方 级 别 的 暴力 算法 去 解决 问题 的 盲目 等 待 中 浪费 了 大 量 的 时 
间 ， 但 实际 上 线性 级 别 或 是 线性 对 数 级 别 的 算法 能 够 在 几 分 之 一 的 时 间 内 完成 任务 。 当 我 们 需要 处 
理 大 规模 问题 时 ， 通 常 ， 除 了 寻找 更 好 的 算法 之 外 我 们 别 无 选择 。 

我 们 将 使 用 本 节 所 述 的 各 种 方法 来 评估 算法 对 内 存 的 使 用 ， 并 在 多 个 成 本 模型 下 对 算法 进行 数 
学 分 析 从 而 得 到 相应 的 近似 函数 ， 然 后 根据 近似 函数 提出 对 算法 所 需 的 运行 时 间 的 增长 数量 级 的 猜 
想 并 通过 实验 验证 它们 。 改 进程 序 ， 使 之 更 加 清晰 、 高 效 和 优雅 应 该 是 我 们 一 贯 的 目标 。 如 果 你 在 














开发 一 个 程序 的 全 过 程 中 都 能 关注 它 的 运行 成 本 ， 那 么 你 都 会 从 该 程序 的 每 次 执行 中 受益 。 





图 答 经 


可 为 什么 不 用 StdRandom 生成 随机 数 来 代替 1Mints.txt ? 

答 在 开发 中 ， 这 样 做 能 够 使 调试 代码 和 重复 实验 更 简单 。 每 次 调用 StdRandom 都 会 产生 不 同 的 值 ， 
所 以 修正 一 个 bug 之 后 并 再 次 运行 程序 可 能 并 不 能 测试 这 次 禾 正 ! 可 以 使 用 StdRandom 中 的 
initialize() 方法 来 解决 这 个 问题 ， 但 1Mints.txt 类 参考 文件 能 够 使 添加 测试 用 例 变 得 更 容易 。 另 
外 ,不 同 的 程序 员 还 能 够 比较 程序 在 不 同 计算 机 上 的 性 能 而 不 必 担 心 输入 模型 的 不 同 。 只 要 你 的 程 
序 已 经 调试 完毕 且 你 已 经 大 致 了 解 了 它 的 性 能 ， 当 然 有 必要 用 随机 数据 测试 它 。 例 如 ，DoublingTest 
和 DoublingRatio 使 用 的 就 是 这 种 方式 。 

间 ”我 在 计算 机 上 运行 了 DoublingRatio, 但 我 得 到 的 结果 和 书 上 的 不 一 致 。 有 些 比例 的 收敛 值 并 不 是 8 
为 什么 ? 

答 ”这 就 是 为 什么 我 们 在 1.4.7 节 中 讨论 了 注意 事项 。 最 可 能 的 情况 是 你 计算 机 上 的 操作 系统 在 实验 进行 
中 还 开小差 去 干 了 点 儿 别 的 活 儿 。 消 除 这 种 问题 的 一 种 方式 是 花 更 多 时 间 做 更 多 次 实验 。 比 如 ， 可 
以 修改 DoublingTest， 让 它 对 于 每 个 N 都 进行 1000 次 实验 ， 这 样 对 于 每 个 NN 它 都 能 给 出 对 运行 时 间 
更 加 精确 的 估计 值 。 

间 在 近似 函数 的 定义 中 ，“ 随 着 N 的 增 大 ”确切 的 意思 是 什么 ? 

答 AN)~g(N) 的 正式 定义 为 limw .AN)/g(N)=1。 

问 ”我 还 见 到 过 其 他 表示 增长 的 数量 级 的 符号 ， 它 们 都 表示 什么 意思 ? 


问 


问 
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使 用 最 广泛 的 记 法 是 “大 O”: 对 于 AN) 和 sg(M)， 如 果 存 在 常数 e 和 Nu 使 得 对 于 所 有 N>N, 都 有 
1 AN 1 < cg(N)， 则 我 们 称 AN) 为 O(g(N))。 这 种 记 法 在 描述 算法 性 能 的 渐进 上 限时 十 分 有 用 ， 这 
在 算法 理论 领域 是 十 分 重要 的 ， 但 它 在 预测 算法 性 能 或 是 比较 算法 时 并 没有 什么 作用 。 

上 题 中 ， 为 什么 说 没有 作用 呢 ? 

主要 原因 是 它 描述 的 仅仅 是 运行 时 间 的 上 限 ， 而 算法 的 实际 性 能 可 能 要 好 得 多 。 一 个 算法 的 运行 时 
间 可 能 既是 OOV) 也 是 ~aMogN 的 。 因 此 ， 它 不 能 解释 类 似 倍率 实验 等 测试 ( 请 见 1.4.6 节 命题 C) 。 
那 为 什么 “大 0” 符 号 的 应 用 非常 广泛 呢 ? 

因为 它 简化 了 对 增长 数量 级 的 上 限 的 研究 ， 甚 至 也 适用 于 一 些 无 法 进行 精确 分 析 的 复杂 算法 。 另 
外 ， 它 还 可 以 和 计算 理论 中 用 于 将 算法 按照 它们 在 最 坏 情况 下 的 性 能 分 类 的 “大 Omega” 和 “大 
Theta” 符 号 一 起 使 用 。 如 果 存在 常数 c 和 Nn 使 得 对 于 N>N 都 有 1 AN) | > cg(N， 则 我 们 称 .AN) 
为 2(g(M)。 如 果 RN) 既是 O(g(N)) 也 是 Q(g(N)， 则 我 们 称 fN) 为 8(g(N))。“ 大 Omega” 记 法 通 
常用 来 表示 最 坏 情况 下 的 性 能 下 限 ， 而 “大 Theta” 记 法 则 通常 用 于 描述 算法 的 最 优 性 能 ， 即 不 存 
在 有 更 好 的 最 坏 情 况 下 的 渐进 增长 数量 级 的 算法 。 算 法 的 最 优 性 显然 是 实际 应 用 中 值得 考虑 的 一 点 ， 
但 你 会 看 到 ， 还 有 其 他 许多 因素 需要 考虑 。 

渐进 性 能 的 上 限 难道 不 重要 吗 ? 

重要 ， 但 我 们 希望 讨论 的 是 给 定 成 本 模型 下 所 有 语句 执行 的 准确 频率 ， 因 为 它们 能 够 提供 更 多 关于 
算法 性 能 的 信息 ， 而 且 从 我 们 所 讨论 的 算法 中 获取 这 些 频率 是 可 能 的 。 例 如 , 我们 可 以 说 “ThreeSum 
访问 数组 的 次 数 为 ~ NJ2”， 以 及 “在 最 坏 情况 下 cnt++ 执行 的 次 数 为 ~ N/6”， 它 们 虽然 有 些 完 
长 但 给 出 的 信息 比 “ThreeSum 的 运行 时 间 为 O(N)” 要 多 得 多 。 

当 一 个 算法 的 运行 时 间 的 增长 数量 级 为 MogN 时 ， 根 据 双 信 测 试 会 得 到 它 的 运行 时 间 为 ~ aN 的 猜想 
(其 中 a 为 常数 ) 。 这 有 问题 吗 ? 

需要 注意 的 是 ， 我 们 不 能 根据 实验 数据 推测 它们 所 符合 的 某 个 特定 的 数学 模型 。 但 如 果 我 们 只 是 在 
预测 性 能 , 这 并 不 是 什么 问题 。 例如 , 当 和 在 16 000 到 32 000 之 间 时 , 14N 和 NgN 的 图 像 非 常 接近 。 
这 些 数据 同时 与 两 条 曲线 吻合 。 随 着 N 的 增 大 ， 丙 条 曲线 更 为 接近 。 想 要 用 实验 来 检验 一 个 算法 的 
运行 时 间 是 线性 对 数 级 别 而 非 线性 级 别 是 要 费 一 番 工 夫 的 。 

int[] a = new int[N] 表示 NN 次 数组 访问 吗 ( 所 有 数组 元 素 均 会 被 初始 化 为 0) ? 

大 多 数 情况 下 是 的 ， 我 们 在 本 书 中 也 是 这 样 假设 的 ， 不 过 复杂 编译 器 的 实现 会 在 遇 到 大 型 稀 朴 数组 
时 尽力 避免 这 种 开销 


图 练 


1.4.1 证 明 从 和 个 数 中 取 三 个 整数 的 不 同 组 合 的 总 数 为 MN - D(V- 2) /6。 提 示 : 使 用 数学 归纳 法 。 
1.4.2 ”修改 ThreeSum， 正 确 处 理 两 个 较 大 的 int 值 相 加 可 能 溢出 的 情况 。 
1.4.3 修改 DoublingTest， 使 用 StdDraw 产生 类 似 于 正文 中 的 标准 图 像 和 对 数 图 像 ， 根 据 需 要 调整 比例 


使 图 像 总 能 够 充满 窗口 的 大 部 分 区 域 。 


1.4.4 参照 表 1.4.4 为 TwoSum 建立 一 张 类 似 的 表格 。 
1.4.5 给 出 下 面 这 些 量 的 近似 : 


aN+tl 
b.1+UN 
ec (1H/NI+ZIN) 
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d.2N-ISNH+HN 
e. lg(2N)lgN 
f. lg(N+1)/gN 
Bg N'™/2™ 
1.4.6 给 出 以 下 代码 段 的 运行 时 间 的 增长 数量 级 (作为 N 的 函数 ) : 
aint sum = 0; 
for (int n=N;n>0;n/=2) 
forCint 1 = 0; i < n; i++) 
SUM++; 
bint sum = 0; 
for (int 1 = 1; 1 <N; i *= 2) 
for (Gint j = 0; j < i; j++) 
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Sum++; 
cint sum = 0; 
for (int i =1; i<N;i*=2) 
for (int j = 0; j < N; j++) 
Sum++i 
1.4.7 ”以 统计 涉及 输入 数字 的 算术 操作 ( 和 比较 ) 的 成 本 模型 分 析 ThreeSum。 
1.4.8 编写 一 个 程序 ， 计 算 输 入 文件 中 相等 的 整数 对 的 数量 。 如 果 你 的 第 一 个 程序 是 平方 级 别 的 ， 请 继 
续 思 考 并 用 Array ,sort() 给 出 一 个 线性 对 数 级 别 的 解答 。 
1.4.9 已 知 由 倍率 实验 可 得 某 个 程序 的 时 间 倍率 为 2 且 问 题 规模 为 Ne 时 程序 的 运行 时 间 为 7， 给 出 一 
个 公式 预测 该 程序 在 处 理 规模 为 N 的 问题 时 所 需 的 运行 时 间 。 
1.4.10 ”修改 二 分 查找 算法 ， 使 之 总 是 返回 和 被 查找 的 键 匹 配 的 索引 最 小 的 元 素 ( 且 仍 然 能 够 保证 对 数 
级 别 的 运行 时 间 ) 。 
1.4.11 为 StaticSETofInts ( 请 见 表 1.2.15 ) 添加 一 个 实例 方法 howMany() ， 找 出 给 定 键 的 出 现 次 数 
且 在 最 坏 情况 下 所 需 的 运行 时 间 和 logX 成 正比 。 
1.4.12 编写 一 个 程序 ， 有 序 打 印 给 定 的 两 个 有 序数 组 ( 含有 N 个 int 值 ) 中 的 所 有 公共 元 素 ， 程 序 在 
最 坏 情况 下 所 需 的 运行 时 间 应 该 和 N 成 正比 。 
1.4.13 ”根据 正文 中 的 假设 分 别 给 出 表示 以 下 数据 类 型 的 一 个 对 象 所 需 的 内 存量 : 
a. Accumulator 
b. Transaction 
c. FixedCapacityStackOfStrings， 其 容量 为 C 上 且 含 有 N 个 元 素 
d Point2D 
e. Interval1D 
f.Interval2D 
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g. Double 





图 提高 到 
1.4.14 4-sum。 为 4-sum 设计 一 个 算法 。 


1.4.15 


1.4.16 


1.4.17 


1.4.18 


1.4.19 


1.4.20 


1.4.21 


1.4.22 


1.4.23 


1.4.24 


1.4.25 


1.4.26 


1.4 算法 分 析 二 133 


快速 3-sum。 作 为 热身 ,使 用 一 个 线性 级 别 的 算法 ( 而 非 基 于 二 分 查找 的 线性 对 数 级 别 的 算法 ) 
实现 TwoSumFaster 来 计算 已 排序 的 数组 中 和 为 0 的 整数 对 的 数量 。 用 相同 的 思想 为 3-sum 问题 
给 出 一 个 平方 级 别 的 算法 。 

最 接近 的 一 对 ( 一 维 ) 。 编 写 一 个 程序 ， 给 定 一 个 含有 N 个 double 值 的 数组 a[] ， 在 其 中 找到 
一 对 最 接近 的 值 : 两 者 之 差 (绝对 值 ) 最 小 的 两 个 数 。 程 序 在 最 坏 情况 下 所 需 的 运行 时 间 应 该 
是 线性 对 数 级 别 的 。 

最 遂 远 的 一 对 ( 一 维 ) 。 编 写 一 个 程序 ， 给 定 一 个 含有 N 个 double 值 的 数组 a[] ， 在 其 中 找到 
一 对 最 各 远 的 值 : 两 者 之 差 ( 绝对 值 ) 最 大 的 两 个 数 。 程 序 在 最 坏 情况 下 所 需 的 运行 时 间 应 该 
是 线性 级 别 的 。 

数组 的 局 部 最 小 元 素 。 编 写 一 个 程序 ， 给 定 一 个 含有 N 个 不 同 整数 的 数组 ， 找 到 一 个 局 部 最 
小 元 素 : 满足 a[i]<a[i - 1]， 且 a[ 订 <a[i+l] 的 索引 i。 程 序 在 最 坏 情况 下 所 需 的 比较 次 数 
为 ~ 2lgN。 

答 : 检查 数组 的 中 间 值 a[N/2] 以 及 和 它 相 邻 的 元 素 a[N/2-1] 和 a[N/2+1] 。 如 果 a[N/2] 是 一 
个 局 部 最 小 值 则 算法 终止 ;否则 则 在 较 小 的 相 邻 元 素 的 半边 中 继续 查找 。 

短 阵 的 局 部 最 小 元 素 。 绘 定 一 个 含有 NP 个 不 同 整数 的 Nx 数组 a[]。 设 计 一 个 运行 时 间 入 
成 正比 的 算法 来 找 出 一 个 局 部 最 小 元 素 : 满足 a[i] [j]<a[i+1][j]、a[i] [j]<a[i][j+1] 、 
a[i] [j]<a[i-1] [j] 以 及 a[i][j]<a[i] [j-1] 的 索引 i 和 j。 程 序 的 运行 时 间 在 最 坏 情况 下 应 
该 和 X 成 正比 。 

双 调 查找 。 如 果 一 个 数组 中 的 所 有 元 素 是 先 递 增 后 递减 的 ， 则 称 这 个 数组 为 双 调 的 。 编 写 一 个 
程序 ， 给 定 一 个 含有 N 个 不 同 int 值 的 双 调 数组 ， 判 断 它 是 否 含有 给 定 的 整数 。 程 序 在 最 坏 情 
况 下 所 需 的 比较 次 数 为 ~ 3lgN。 

无 重复 值 之 中 的 二 分 查找 。 用 二 分 查找 实现 StaticSETofInts ( 请 见 表 1.2.15 ) ,保证 containsO 
的 运行 时 间 为 ~lgR， 其 中 R 为 参数 数组 中 不 同 整数 的 数量 。 

仅 用 加 碱 实 现 的 二 分 查找 ( Mihai Patrascu ) 。 编 写 一 个 程序 ， 给 定 一 个 含有 N 个 不 同 int 值 的 
按照 升序 排列 的 数组 ， 判 断 它 是 否 含有 给 定 的 整数 。 只 能 使 用 加 法 和 减法 以 及 常数 的 额外 内 存 
空间 。 程 序 的 运行 时 间 在 最 坏 情况 下 应 该 和 logN 成 正比 。 

答 用 斐 波 纳 契 数 代替 2 的 寡 ( 二 分 法 ) 进 行 查找 用 两 个 变量 保存 到 和 到 , 并 在 羽 计 由 之 间 查 找 。 
在 每 一 步 中 ， 使 用 减法 计算 所 >*， 检 查 itF;, 处 的 元 素 ， 并 根据 结果 将 搜索 范围 变 为 [i, itFi] 或 
是 [Fs, HFEstFi], 

分 数 的 二 分 查找 。 设 计 一 个 算法 ， 使 用 对 数 级 别 的 比较 次 数 找 出 有 理 数 plg， 其 中 0<p<q<N， 比 
较 形式 为 给 定 的 数 是 否 小 于 x? 提示 : 两 个 分 母 均 小 于 N 的 有 理 数 之 差 不 小 于 UN。 

扔 鸡蛋 。 假 设 你 面前 有 一 栋 入 层 的 大 楼 和 许多 鸡蛋 ,假设 将 鸡蛋 从 下层 或 者 更 高 的 地 方 扔 下 鸡 
绰 才 会 摔 碎 ， 否 则 则 不 会 。 首 先 ， 设 计 一 种 策略 来 确定 的 值 ， 其 中 扔 ~lgN 次 鸡蛋 后 摔 碎 的 鸡 
蛋 数量 为 ~lgN， 然 后 想 办 法 将 成 本 降低 到 ~21gF。 

扔 两 个 鸡蛋 。 和 上 一 题 相同 的 问题 ， 但 现在 假设 你 只 有 两 个 鸡蛋 ， 而 你 的 成 本 模型 则 是 扔 鸡蛋 
的 次 数 。 设 计 一 种 策略 ， 最 多 扔 2?VN 次 鸡蛋 即 可 判断 出 五 的 值 ， 然 后 想 办 法 把 这 个 成 本 降低 到 
~cyF 次 。 这 和 查找 命中 ( 鸡蛋 完好 无 损 ) 比 未 命中 (鸡蛋 被 摔 碎 ) 的 成 本 小 得 多 的 情形 类 似 。 
三 点 共 线 。 假设 有 一 个 算法 , 接受 平面 上 的 N 个 点 并 能 够 返回 在 同一 条 直线 上 的 三 个 点 的 组 数 。 
证 明 你 能 够 用 这 个 算法 解决 3-sum 问题 。 强 乔 提 示 : 使 用 代数 证 明 当 上 且 仅 当 atb+c=0 时 (a, a”)、 
(b,b') 和 (ec, c) 在 同一 条 直线 上 。 
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1.4.27 


1.4.28 


1.4.29 


1.4.30 


1.4.31 


1.4.32 


1.4.33 


1.4.34 


1.4.35 


1.4.36 


两 个 栈 实现 的 队列 。 用 两 个 栈 实现 一 个 队列 ， 使 得 每 个 队列 操作 所 需 的 堆栈 操作 均 排 后 为 一 个 
常数 。 提 示 : 如 果 将 所 有 元 素 压 人 栈 再 弹出 ， 它 们 的 顺序 就 被 颠倒 了 。 如 果 再 次 重复 这 个 过 程 ， 


它们 的 顺序 则 会 复原 。 


一 个 队列 实现 的 栈 。 使 用 一 个 队列 实现 一 个 栈 , 使 得 每 个 栈 操作 所 需 的 队列 操作 数量 为 线性 级 别 。 
提示 : 要 删除 一 个 元 素 ， 将 队列 中 的 所 有 元 素 一 一 出 列 再 入 列 ， 除 了 最 后 一 个 元 素 ， 应 该 将 它 
删除 并 返回 (这 种 方法 的 确 非常 低 效 ) 。 

两 个 栈 实现 的 steque。 用 两 个 栈 实现 一 个 steque ( 请 见 练习 1.3.32 ) ， 使 得 每 个 steque 操作 所 需 


的 栈 操 均 摊 后 为 一 个 常数 。 


一 个 栈 和 一 个 steque 实现 的 双向 队列 。 使 用 一 个 栈 和 steque 实现 一 个 双向 队列 ( 请 见 练习 1.3.32 ) ， 
使 得 双向 队列 的 每 个 操作 所 需 的 栈 和 steque 操作 均 排 后 为 一 个 常数 。 
三 个 栈 实现 的 双向 队列 。 使 用 三 个 栈 实现 一 个 双向 队列 ， 使 得 双向 队列 的 每 个 操作 所 需 的 栈 操 


作 均 摊 后 为 一 个 常数 。 


均 捧 分 析 。 请 证 明 , 对 一 个 基于 大 小 可 变 的 数组 实现 的 空 栈 的 W 次 操作 访问 数组 的 次 数 和 AM 成 正比 。 
32 位 计算 机 中 的 内 存 需求 。 给 出 32 位 计算 机 中 Integer、Date、Counter、int[] 、double[] 、 
double[] [] 、String、Node 和 Stack ( 链表 表示 ) 对 象 所 需 的 内 存 ， 设 引用 需要 4 字 节 ， 表 示 
对 象 开销 为 8 字 节 ， 所 需 内 存 均 会 被 填充 为 4 字 节 的 倍数 。 

热 还 是 冷 。 你 的 目标 是 猜 出 1 到 入 之 间 的 一 个 秘密 的 整数 。 每 次 猜 完 一 个 整数 后 ， 你 会 知道 你 的 
猜测 和 这 个 秘密 整数 是 否 相等 ( 如 果 是 则 游戏 结束 ) 。 如 果 不 相等 ， 你 会 知道 你 的 猜测 相 比 上 一 
次 猜测 距离 该 秘密 整数 是 比较 热 ( 接近 ) 还 是 比较 冷 ( 远离 ) 。 设 计 一 个 算法 在 ~2lgN 之 内 找到 
这 个 秘密 整数 ， 然 后 再 设计 一 个 算法 在 ~llgN 之 内 找到 这 个 秘密 整数 。 

下 压 栈 的 时 间 成 本 。 解 释 下 表 中 的 数据 ， 它 显示 了 各 种 下 压 栈 的 实现 的 一 般 时 间 成 本 ， 其 中 成 
本 模型 会 同时 记录 数 声 引用 的 数量 ( 指向 被 压 人 栈 之 中 的 数据 的 引用 ， 指 向 的 可 能 是 数组 ， 也 
可 能 是 某 个 对 象 的 实例 变量 ) 和 被 创建 的 对 象 数量 。 


下 压 栈 〔〈 的 各 种 实现 ) 的 时 间 成 本 








- 压 入 NN 个 int 值 的 成 本 
区 ee 数据 的 引用 创建 的 对 象 
int 2N N 
关于 由 家 Integer 3N 2N 
基于 大 小 可 变 的 数组 了 六 
Integer -SN 本 


下 压 栈 的 空间 成 本 。 解 释 下 表 中 的 数据 ， 它 显示 了 各 种 下 压 栈 的 实现 的 一 般 空间 成 本 ， 其 中 链 
表 的 节点 为 一 个 静态 的 嵌 套 类 ， 从 而 避免 非 静态 嵌 套 类 的 开销 。 


下 压 栈 〈 的 各 种 实现 ) 的 空间 成 本 





| 元 素 类 型 NN 个 int 值 所 项 的 空间 ( 字 忆 ) 
int ~32N 
人 Integer ~56N 
基于 大 小 可 变 的 数组 人 ~4N 到 - 16N 之 间 
Integer ~32N 到- 56N 之 间 
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图 实验 囊 


1.4.37 


1.4.38 


1.4.39 


1.4.40 


1.4.41 


1.4.42 


1.4.43 


1.4.44 


1.4.45 


自动 装 箱 的 性 能 代价 。 通 过 实验 在 你 的 计算 机 上 计算 使 用 自动 装 箱 和 自动 拆 箱 所 付出 的 性 能 代 
价 。 实 现 一 个 FixedCapacityStackOfInts， 并 使 用 类 似 DoublingRatio 的 用 例 比较 它 和 泛 型 
FixedCapacityStack<Integer> 在 进行 大 量 push() 和 popQ 操作 时 的 性 能 。 
3-sum 的 初级 算法 的 实现 。 通 过 实验 评估 以 下 ThreeSum 内 循环 的 实现 性 能 : 
for (int i 

for Cint ; 

for Cint k = 0; k < N; k++) 
if G <j8&j<k) 
if (a[i] + a[j] + a[k] == 0) 
Cnt++; 

为 此 实现 男 一 个 版 本 的 DoublingTest， 计 算 该 程序 和 ThreeSum 的 运行 时 间 的 比例 。 
改进 倍率 测试 的 精度 。 修 改 DoublingRatio， 使 它 接 受 另 一 个 命令 行 参数 来 指定 对 于 每 个 N 值 调 
用 timeTria10 方 法 的 次 数 。 用 程序 对 每 个 N 执 行 10、100 和 1000 遍 实验 并 评估 结果 的 准确 程度 。 
随机 输入 下 的 3-sum 问题 。 猜 测 找 出 NN 个 随机 int 值 中 和 为 0 的 整数 三 元 组 的 数量 所 需 的 时 间 
并 验证 你 的 猜想 。 如 果 你 擅长 数学 分 析 ， 请 为 此 问题 给 出 一 个 合适 的 数学 模型 ， 其 中 所 有 值 均 
匀 地 分 布 在 -M 到 M 之 间 ， 且 MM 不 能 是 一 个 小 整数 。 
运行 时 间 。 使 用 DoublingRatio 估计 在 你 的 计算 机 上 用 TwoSumFast、TwoSum 、ThreeSumFast 以 
及 ThreeSum 处 理 一 个 含有 100 万 个 整数 的 文件 所 需 的 时 间 。 
问题 规模 。 设 在 你 的 计算 机 上 用 TwoSumFast、TwoSum、ThreeSumFast 以 及 ThreeSum 能 够 处 理 
的 问题 的 规模 为 2x10 个 整数 。 使 用 Doub lingRatio 估计 P 的 最 大 值 。 
大 小 可 变 的 数组 与 链表 。 通 过 实验 验证 对 于 栈 来 说 基于 大 小 可 变 的 数组 的 实现 快 于 基于 链表 的 
实现 的 猜想 ( 请 见 练习 1.4.35 和 练习 1.4.36 ) 。 为 此 实现 另 一 个 版 本 的 DoublingRatio， 计 算 两 
个 程序 的 运行 时 间 的 比例 。 
生日 问题 。 编 写 一 个 程序 ， 从 命令 行 接受 一 个 整数 N 作为 参数 并 使 用 StdRandom.uniform() 生 
成 一 系列 0 到 N-1 之 间 的 随机 整数 。 通 过 实验 验证 产生 第 一 个 重复 的 随机 数 之 前 生成 的 整数 数 
量 为 ~ VAV/I 。 
优惠 券 收集 问题 。 用 和 上 一 题 相 同 的 方式 生成 随机 整数 。 通 过 实验 验证 生成 所 有 可 能 的 整数 值 
所 需 生成 的 随机 数 总 量 为 ~NHw。 
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1.5 “案例 研究 :union-find 算法 


为 了 说 明 我 们 设计 和 分 析 算法 的 基本 方法 ， 我 们 现在 来 学 习 一 个 具体 的 例子 。 我 们 的 目的 是 强 
调 以 下 几 点 : 

口 优秀 的 算法 因为 能 够 解决 实际 问题 而 变 得 更 为 重要 ; 

口 高 效 算法 的 代码 也 可 以 很 简单 ; 

口 理解 某 个 实现 的 性 能 特点 是 一 项 有 趣 而 令 人 满足 的 挑战 ; 

口 在 解决 同一 个 问题 的 多 种 算法 之 间 进 行 选择 时 ， 科 学 方法 是 一 种 重要 的 工具 ; 

口 迭代 式 改进 能 够 让 算法 的 效率 越 来 越 高 。 

我 们 会 在 本 书 中 不 断 巩固 这 些 主题 思想 。 本 节 中 的 例子 是 一 个 原型 ， 它 将 会 为 我 们 用 相同 的 方 
法 解决 许多 其 他 问题 打下 坚实 的 基础 。 

我 们 将 要 讨论 的 问题 并 非 无 足 轻重 ， 它 是 一 个 非常 基础 的 计算 性 问题 ， 而 我 们 开发 的 解决 方案 
将 会 用 于 多 种 实际 应 用 之 中 ， 从 物理 化 学 中 的 渗流 到 通信 网 络 中 的 连通 性 等 。 我 们 首先 会 给 出 一 个 
简单 的 方案 ， 然 后 对 它 的 性 能 进行 研究 并 由 此 得 出 应 该 如 何 继续 改进 我 们 的 算法 。 


1.5.1 动态 连通 性 Sr 加 二 汉 


ES 
首先 我 们 详细 地 说 明 一 下 问题 ， 问 题 的 输入 是 一 列 整 数 Fees 
对 ， 其 中 每 个 整数 都 表示 一 个 某 种 类 型 的 对 象 ， 一 对 整数 p 《3 。。。。。 
9 可 以 被 理解 为 “p 和 9 是 相连 的 ”。 我 们 假设 “相连 " 是 。 8s。*，，。 这 
一 种 对 等 的 关系 ， 这 也 就 意味 着 它 具 有 : cd 
口 自 反 性 : p 和 p 是 相连 的 ; 65 arit 
口 对 称 性 . 如 果 p 和 q 是 相连 的 ,那么 q 和 p 也 是 相连 的 : 54 i 口 

口 传递 性 : 如 果 p 和 9q 是 相连 的 且 q 和 r 是 相连 的 ， ey 
那么 p 和 r 也 是 相连 的 。 | 


对 等 关系 能 够 将 对 象 分 为 多 个 等 价 类 。 在 这 里 ， 当 且 仅 
当 两 个 对 象 相连 时 它们 才 属于 同一 个 等 价 类 。 我 们 的 目标 是 
编写 一 个 程序 来 过 滤 掉 序列 中 所 有 无 意义 的 整数 对 ( 两 个 束 
数 均 来 自 于 同一 个 等 价 类 中 ) 。 换 句 话说 ， 当 程序 从 输入 中 
读 取 了 整数 对 pq 时 ， 如 果 已 知 的 所 有 整数 对 都 不 能 说 明 p 
和 q 是 相连 的 ， 那么 则 将 这 一 对 整数 写 人 到 输出 中 。 如 果 已 
知 的 数据 可 以 说 明 p 和 9 是 相连 的 ， 那 么 程序 应 该 忽略 p q 
这 对 整数 并 继续 处 理 输入 中 的 下 一 对 整数 。 图 1.5.1 用 一 个 
例子 说 明了 这 个 过 程 。 为 了 达到 所 期 望 的 效果 ， 我 们 需要 设 
计 一 个 数据 结构 来 保存 程序 已 知 的 所 有 整数 对 的 足够 多 的 信 
息 ， 并 用 它们 来 判断 一 对 新 对 象 是 否 是 相连 的 。 我 们 将 这 个 
问题 通俗 地 叫做 动态 连通 性 问题 ,这 个 问题 可 能 有 以 下 应 用 。 
1.5.1.1 网 络 图 1.5.1 动态 连通 性 问题 ( 另 见 彩 插 ) 

输入 中 的 整数 表示 的 可 能 是 一 个 大 型 计算 机 网 络 中 的 计算 机 ， 而 整数 对 则 表示 网 络 中 的 连接 。 
这 个 程序 能 够 判定 我 们 是 否 需 要 在 p 和 9 之 间架 设 一 条 新 的 连接 才能 进行 通信 ， 或 是 我 们 可 以 通过 
已 有 的 连接 在 两 者 之 问 建立 通信 线路 ; 或 者 这 些 整 数 表示 的 可 能 是 电子 电路 中 的 触 点 ， 而 整数 对 表 





2 个 连通 分 量 
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示 的 是 连接 触 点 之 间 的 电路 ; 或 者 这 些 整数 表示 的 可 能 是 社交 网 络 中 的 人 ， 而 整数 对 表示 的 是 朋友 
关系 。 在 此 类 应 用 中 ,我 们 可 能 需要 处 理 数 百 万 的 对 象 和 数 十 亿 的 连接 。 
1.5.1.2 ”变量 名 等 价 性 

某 些 编程 环境 允许 声明 两 个 等 价 的 变量 名 ( 指向 同一 个 对 象 的 多 个 引用 ) 。 在 一 系列 这 样 的 声 
明之 后 ,系统 需要 能 够 判别 两 个 给 定 的 变量 名 是 否 等 价 。 这 种 较 早出 现 的 应 用 ( 如 FORTRAN 
推动 了 我 们 即将 讨论 的 算法 的 发 展 
1.5.1.3 ”数学 集合 

在 更 高 的 抽象 层次 上 ， 可 以 将 输入 的 所 有 整数 看 做 属于 不 同 的 数学 集合 。 在 处 理 一 个 整数 对 p 
9 时 ,我们 是 在 判断 它们 是 否 属于 相同 的 集合 。 如 果 不 是 ， 我 们 会 将 p 所 属 的 集合 和 q 所属 的 集合 
归并 , 最终 所 有 的 整数 属于 同一 个 集合 。 

为 了 进一步 限定 话题 ， 我 们 会 在 本 节 以 下 内 容 中 使 用 网 络 方面 的 术语 ， 将 对 象 称 为 触 点 ， 将 整 
数 对 称 为 连接 ， 将 等 价 类 称 为 连通 分 量 或 是 简称 分 量 。 简 单 起 见 ， 假 设 我 们 有 用 0 到 N-1 的 整数 所 
表示 的 N 个 触 点 。 这 样 做 并 不 会 降低 算法 的 通用 性 ,因为 我 们 在 第 3 章 中 将 会 学 习 一 组 高 效 的 算法 ， 
将 整数 标识 符 和 任意 名 称 关联 起 来 

图 1.5.2 是 一 个 较 大 的 例子 ， 意 在 说 明 连 通 性 问题 的 难度 。 你 很 快 就 可 以 找到 图 左 侧 中 部 一 个 
只 含有 一 个 触 点 的 分 量 ， 以 及 左下 方 一 个 含有 5 个 触 点 的 分 量 ， 但 让 你 验证 其 他 所 有 触 点 是 否 
相互 连通 的 可 能 就 有 些 困难 了 。 对 于 程序 来 说 ， 这 个 任务 更 加 困难 ， 因 为 它 所 处 理 的 只 有 触 点 
字 和 连接 而 并 不 知道 触 点 在 图 像 中 的 几何 位 置 。 我 们 如 何 才能 快速 知道 这 种 网 络 中 任意 给 定 的 两 个 
触 点 是 否 相连 呢 ? 



















图 1.5.2 中 等 规模 的 连通 性 问题 举例 (625 个 900 条 边 ，3 个 连通 分 量 ) 
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我 们 在 设计 算法 时 面 对 的 第 一 个 任务 就 是 精确 地 定义 问题 。 我 们 希望 算法 解决 的 问题 越 大 ， 
它 完成 任务 所 需 的 时 间 和 空间 可 能 就 越 多 。 我 们 不 可 能 预先 知道 这 其 间 的 量化 关系 ， 而 且 我 们 通 
常 只 会 在 发 现 解决 问题 很 困难 ， 或 是 代价 巨大 ， 或 是 在 幸运 地 发 现 算法 所 提供 的 信息 比 原 问题 所 
需要 的 更 加 有 用 时 修改 问题 。 例 如 ， 连 通 性 问题 只 要 求 我 们 的 程序 能 够 判别 给 定 的 整数 对 p q 是 
理 相 连 ， 但 并 没有 要 求 给 出 两 者 之 间 的 通路 上 的 所 有 连接 。 这 样 的 要 求 会 使 问题 更 加 困难 ， 并 得 
到 另 一 组 不 同 的 算法 ， 我 们 会 在 4.1 节 中 学 习 它们 。 

为 了 说 明 问题 ， 我 们 设计 了 一 份 API 来 封装 所 需 的 基本 操作 : 初始 化 、 连 接 两 个 触 点 、 判 断 
包含 某 个 触 点 的 分 量 、 判 断 两 个 触 点 是 否 存在 于 同一 个 分 量 之 中 以 及 返回 所 有 分 量 的 数量 。 详 细 的 
API 如 表 1.5.1 所 示 。 


表 1.5.1 union-find 算法 的 API 
Ca 一 


public class UF 





UFCint N) 以 整数 标识 (0 到 N-1 ) 初始 化 N 个 触 点 
void union(int p, int q) 在 p 和 9 之 间 添 加 一 条 连接 
int findCint p) p 所 在 的 分 量 的 标识 符 (0 到 N-1 ) 
boolean connected(int p, int q) 如 果 p 和 9 存在 于 同一 个 分 量 中 则 返回 true 
int countO 连通 分 量 的 数量 


如 果 两 个 触 点 在 不 同 的 分 量 中 ，union0 操作 会 将 两 个 分 量 归并 。find() 操作 会 返回 给 定 
触 点 所 在 的 连通 分 量 的 标识 符 。connected() 操作 能 够 判断 两 个 触 点 是 否 存在 于 同一 个 分 量 之 
中 。count() 方法 会 返回 所 有 连通 分 量 的 数量 。 一 开始 我 们 有 N 个 分 量 ， 将 两 个 分 量 归 并 的 每 次 
union() 操作 都 会 使 分 量 总 数 减 一 。 

我 们 马上 就 将 看 到 ， 为 解决 动态 连通 性 问题 设计 算法 的 任务 转化 为 了 实现 这 份 API。 所 有 的 实 
现 都 应 该 : 

口 定义 一 种 数据 结构 表示 已 知 的 连接 ; 

口 基于 此 数据 结构 实现 高 效 的 union() 、find() 、connected() 和 count() 方法 。 

众所周知 ， 数 据 结构 的 性 质 将 直接 影响 到 算法 的 效率 ， 因 此 数据 结构 和 算法 的 设计 是 紧密 相关 
的 。API 已 经 说 明 触 点 和 分 量 都 会 用 in* 值 表示 ， 所 以 我 们 可 以 用 一 个 以 触 点 为 索引 的 数组 id[] 
作为 基本 数据 结构 来 表示 所 有 分 量 。 我 们 将 使 用 分 量 中 的 某 个 触 点 的 名 称 作为 分 量 的 标识 符 ， 因 此 
你 可 以 认为 每 个 分 量 都 是 由 它 的 触 点 之 一 所 表示 的 。 一 开始 ， 我 们 有 N 个 分 量 ， 每 个 触 点 都 构成 了 
一 个 只 含有 它 自己 的 分 量 ， 因 此 我 们 将 id[i] 的 值 初始 化 为 1， 其 中 1 在 0 到 N-1 之 间 。 对 于 每 个 
触 点 i， 我 们 将 find() 方法 用 来 判定 它 所 在 的 分 量 所 需 的 信息 保存 在 id[i] 之 中 。connected() 
方法 的 实现 只 用 一 条 语句 find(p) == find(q9)， 它 返回 一 个 布尔 值 ， 我 们 在 所 有 方法 的 实现 中 都 
会 用 到 connected() 方法 。 

总 之 ,我 们 的 起 点 就 是 算法 1.5。 我 们 维护 了 两 个 实例 变量 ， 一 个 是 连通 分 量 的 个 数 ， 一 个 是 
数组 id[] 。find() 和 union() 的 实现 是 本 节 剩 余 内 容 将 要 讨论 的 主题 。 


算法 1.5 union-find 的 实现 


public class UF 

{ 
private int[] id; // 分 量 id ( 以 触 点 作为 索引 》 
private int count; // 分 量 数量 





1.5 


public UFCint N) 
人 { // 初始 化 分 量 jd 数组 
count = Ni 
id = new int[N]; 
for Cint 1 = 0; i < N; i++) 
id[i] = i; 





这 

public int count() 

{ return count; } 

public boolean connected(int p, int q) 
{ return find(p) == find(q); } 
public int findCint p) 

public void union(int p, int q) 
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// 请 见 1521 节 用 例 (quick-find) 、1.523 节 用 例 (quick-union ) 和 算法 1.5 (加权 quick-union ) 


public static void main(String[] args) 
{ // 解决 由 StdIn 得 到 的 动态 连通 性 问题 
int N = StdIn.readIntO); 
UF uf = new UF(N); 
while (!StdIn.isEmptyO)) 
{ 
int p = StdIn.readIntO; 
int q = StdIn.readInt(); 
if (uf.connected(p, q)) continue; 
uf.union(p, q); 
StdOut.printIn(p + " " 


// 读 取 整数 对 


// 归并 分 量 
+ q); // 打印 连接 
} 
StdOut.printinCuf,count() + "components"); 
} 
} 


// 读 取 触 点 数量 
// 初始 化 N 个 分 量 


// 如 果 已 经 连通 则 忽略 


这 份 代码 是 我 们 对 UF 的 实现 。 它 维护 了 一 个 整 型 数组 id[] ， 使 得 findQ 对 于 处 在 同一 个 连通 分 


量 中 的 触 点 均 返 回 相同 的 整数 值 。union() 方法 必须 保证 这 一 点 。 





为 了 测试 API 的 可 用 性 并 方便 开发 ,我们 在 main() 方法 中 
包含 了 一 个 用 例 用 于 解决 动态 连通 性 问题 。 它 会 从 输入 中 读 取 N 
值 以 及 一 系列 整数 对 ， 并 对 每 一 对 整数 调用 findQ 方法 : 如 果 
某 一 对 整数 中 的 两 个 触 点 已 经 连通 ,程序 会 继续 处 理 下 一 对 数据 ; 
如 果 不 连通 ， 程 序 会 调用 union() 方法 并 打印 这 对 整数 。 在 讨论 
实现 之 前 ， 我 们 也 准备 了 一 些 测试 数据 ( 如 右 侧 的 代码 框 所 示 ) : 
文件 tinyUF.txt 含 有 10 个 触 点 和 11 条 连接 ,图 1.5.1 使 用 的 就 是 它 ; 
文件 mediumUF.txt 含 有 625 个 触 点 和 900 条 连接 , 如 图 1.5.2 所 示 ; 
例子 文件 largeUF.txt 含有 100 万 个 触 点 和 200 万 条 连接 。 我 们 的 
目标 是 在 可 以 接受 的 时 间 范 围 内 处 理 和 largeUF.txt 规模 类 似 的 
输入 。 

为 了 分 析 算 法 ,我 们 将 重点 放 在 不 同 算法 访问 任意 数组 元 素 
的 总 次 数 上 。 我 们 这 样 做 相当 于 隐 式 地 猜测 各 种 算法 在 一 台 特定 
的 计算 机 上 的 运行 时 间 在 这 个 量 乘 以 某 个 常数 的 范围 之 内 。 这 个 
猜想 基于 代码 ， 用 实验 验证 它 并 不 困难 。 我 们 将 会 看 到 ， 这 个 猜 
想 是 算法 比较 的 一 个 很 好 的 开始 。 


% more tinyUF.txt 
1 


% more mediumUF.txt 
625 

528 503 

548 523 

900 条 连接 

% more largeUF.txt 
000000 


1 
786321 134521 
696834 98245 


200 万 条 连接 
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union-find 的 成 本 模型 。 在 研究 实现 union-find 的 API 的 各 种 算法 时 ， 我 们 统计 的 是 数组 的 访问 
次数 (访问 任意 数组 元 素 的 次 数 ， 无论 读 写 ) 。 


1.5.2 ”实现 


我 们 将 讨论 三 种 不 同 的 实现 ， 它 们 均 根据 以 触 点 为 索引 的 id[] 数组 来 确定 两 个 触 点 是 否 存 
在 于 相同 的 连通 分 量 中 。 
1.5.2.1 quick-find 算法 

一 种 方法 是 保证 当 且 仅 当 id[p] 等 于 id[q] 时 p 和 9 是 连通 的 。 换 句 话说 ， 在 同一 个 连通 分 
量 中 的 所 有 触 点 在 id[] 中 的 值 必须 全 部 相同 。 这 意味 着 connected(p， q) 只 需要 判断 id[p] -= 
id[q] , 当 且 仅 当 p 和 q 在 同一 连通 分 量 中 该 语句 才 会 返回 true。 为 了 调用 unionCp， 9) 确 保 这 一 点 ， 
我 们 首先 要 检查 它们 是 否 已 经 存在 于 同一 个 连通 分 量 之 中 。 如 果 是 我 们 就 不 需要 采取 任何 行动 ， 否 
则 我 们 面 对 的 情况 就 是 p 所 在 的 连通 分 量 中 的 所 有 触 点 的 id[] 值 均 为 同一 个 值 ， 而 9 所 在 的 连通 
分 量 中 的 所 有 触 点 的 id[] 值 均 为 另 一 个 值 。 要 将 两 个 分 量 合 二 为 一 ， 我 们 必须 将 两 个 集合 中 所 有 
触 点 所 对 应 的 id[] 元 素 变 为 同一 个 值 ， 如 表 1.5.2 所 示 。 为 此 ， 我 们 需要 遍历 整个 数组 ， 将 所 有 和 
id[p] 相等 的 元 素 的 值 变 为 id[q] 的 值 。 我 们 也 可 以 将 所 有 和 id[q] 相等 的 元 素 的 值 变 为 id[p] 
的 值 一 一 两 者 皆 可 。 根 据 上 述 文字 得 到 的 findC) 和 union() 的 代码 简单 明了 , 如 下 面 的 代码 框 所 示 。 
图 1.5.3 显示 的 是 我 们 的 开发 用 例 在 处 理 测试 数据 tinyUFtxt 时 的 完整 轨迹 。 






id[] 
public int findCint p) 0123456789 
{ return id[p]; } CT TE 
public void union(int p, int q) 0123356789 
{ // 将 p 和 q 归 并 到 相同 的 分 量 中 38 3 8 
int pID = find(p); 
int qID = find(q); a 
// 如果 p 和 q 已 经 在 相同 的 分 量 之 中 则 不 需要 采取 任何 行动 0128855789 
if (pID == qID) return; 
94 8 9 
// 将 p 的 分 量 重 命名 为 q 的 名 称 0128855788 
for (int i = 0; i < id.length; i++) 21 012 
if Cid[i] == pID) id[i] = qiD; 
hie 0118855788 
} 88 
50 0 5 
quick-find 0118800788 
72 和 芝 
表 1.5.2 quick-find 概览 0118800188 
et S101 0 
find( 方 法 正在 检查 id[5] 和 id[9] 11MN881f188 
pq 0123456789 11 
59 8 11 
id[p] 和 id[q] 不 等 ， 因 此 union() 
union() 方 法 需要 要 将 所 有 的 1 修改 为 8 会 将 所 有 和 id [p] 相 等 的 元 素 的 值 均 
pq OlZ5456 x E. | 改 为 id[q] 的 值 (加 棚 部 分 ) 
ET 一 id[p] 和 id[q] 相 等 ， 不 需 
要 进行 任何 改动 


888 888 
一 图 1.5.3 quick-find 的 轨迹 
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1.5.2.2 ”quick-find 算法 的 分 析 
find() 操作 的 速度 显然 是 很 快 的 ， 因 为 它 只 需要 访问 id[] 数组 一 次 。 但 quick-find 算法 一 般 
无 法 处 理 大 型 问题 ， 因 为 对 于 每 一 对 输入 union() 都 需要 扫描 整个 id[] 数组 。 


命题 F。 在 quick-find 算法 中 ， 每 次 find() 调用 只 需要 访问 数组 一 次 ， 而 归并 两 个 分 量 的 
union() 操作 访问 数组 的 次 数 在 (N+3) 到 (2N+1) 之 间 。 


证 明 。 由 代码 马上 可 以 知道 ,每 次 connected() 调用 都 会 检查 id[] 数组 中 的 两 个 元 素 是 否 相等 ， 
即 会 调用 两 次 find() 方法 。 归 并 两 个 分 量 的 union() 操作 会 调用 两 次 find()， 检 查 id[] 数 
组 中 的 全 部 入 个 元 素 并 改变 它们 中 1 到 N-1 个 元 素 的 值 。 


假设 我 们 使 用 quick-find 算法 来 解决 动态 连通 性 问题 并 且 最 后 只 得 到 了 一 个 连通 分 量 ， 那 么 这 
至 少 需要 调用 N-1 次 union() ， 即 至 少 (W+3)(N-1) ~ 下 次 数组 访问 一 一 我 们 马上 可 以 猜想 动态 连 
通 性 的 quick-find 算法 是 平方 级 别 的 。 将 这 种 分 析 推广 我 们 可 以 得 到 ，quick-fnd 算法 的 运行 时 间 对 
于 最 终 只 能 得 到 少数 连通 分 量 的 一 般 应 用 是 平方 级 别 的 。 在 计算 机 上 用 倍率 测试 可 以 很 容易 验证 这 
个 猜想 ( 指导 性 的 例子 请 见 练习 1.5.23 ) 。 现 代 计 算 机 每 秒 钟 能 够 执行 数 亿 甚至 数 十 亿 条 指令 ， 因 
此 如 果 入 较 小 的 话 这 个 成 本 并 不 是 很 明显 。 但 是 在 现代 应 用 中 我 们 也 很 可 能 需要 处 理 几 百 万 甚至 数 
十 亿 的 触 点 和 连接 ， 例 如 我 们 的 测试 文件 largeUF.txt。 如 果 你 还 不 相信 并 且 觉 得 自己 的 计算 机 足够 
快 , 请 使 用 quick-find 算法 找 出 largeUF.txt 中 所 有 整数 对 所 表示 的 连通 分 量 的 数量 。 结 论 无 可 争议 ， 222 
使 用 quick-find 算法 解决 这 种 问题 是 不 可 行 的 ， 我 们 需要 寻找 更 好 的 算法 。 223 
1.5.2.3 quick-union 算法 
我 们 要 讨论 的 下 一 个 算法 的 重点 是 提高 union() 方法 的 速度 ， 它 和 quick-find 算法 是 互补 的 。 
它 也 基于 相同 的 数据 结构 一 一 以 触 点 作为 索引 的 id[] 数组 ， 但 我 们 赋予 这 些 值 的 意义 不 同 ， 我 们 
需要 用 它们 来 定义 更 加 复杂 的 结构 。 确 切 地 说 ， 每 个 触 点 所 对 应 的 id[] 元 素 都 是 同一 个 分 量 中 的 
另 一 个 触 点 的 名 称 ( 也 可 能 是 它 自己 ) 一 一 我 们 将 这 种 联系 称 为 链接 。 在 实现 find() 方法 时 ,我 
们 从 给 定 的 触 点 开始 ， 由 它 的 链接 得 到 另 一 个 触 点 ， 再 由 这 个 触 点 的 链接 到 达 第 三 个 触 点 ， 如 此 继 
续 跟 随 着 链接 直到 到 达 一 个 根 触 点 , 即 链接 指向 自己 的 触 点 ( 你 将 会 看 到 , 这 样 一 个 触 点 必然 存在 ) 。 
当 且 仅 当 分 别 由 两 个 触 点 开始 的 这 个 过 程 到 达 


了 同一 个 根 触 点 时 它们 存在 于 同一 个 连通 分 量 。 private int findCint p) 
{ // 找 出 分 量 的 名 称 




















之 中 。 为 了 保证 这 个 过 程 的 有 效 性 ， 我 们 需要 while Cp le 1d[p]) p= 4dp]; 

union《p，q) 来 保证 这 一 点 。 它 的 实现 很 简单 : return p; 

我 们 由 p 和 q 的 链接 分 别 找到 它们 的 根 触 点 ， 3 ee neh 
<- 此 本 工 ublic void union(Cint p, int q,; 

然后 只 需 将 一 个 根 触 点 链接 到 另 一 个 即 可 将 一 。。 中/ 将 p 和 gq 的 梳 节 上 

个 分 量 重 命名 为 男 一 个 分 量 ， 因 此 这 个 算法 叫 int pRoot = find(p); 

做 quick-union。 和 刚才 一 样 ， 无 论 是 重 命名 A 


含有 p 的 分 量 还 是 重 命名 含有 9q 的 分 量 都 可 以 ， 

右 侧 的 这 段 实现 重 命名 了 p 所 在 的 分 量 。 图 1.5.5 

显示 了 quick-union 算法 在 处 理 tinyUFtxt 时 的 } 
轨迹 。 图 1.5.4 能 够 很 好 地 说 明 图 1.5.5( 见 1.5.2.4 

节 ) 中 的 轨迹 ,我 们 接 下 来 要 讨论 的 就 是 它 。 quick-union 


id[pRoot] = qRoot; 
count--; 
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刘 口 用 父 链接 的 方式 表示 了 一 片 森林 
findO 〇 会 随 着 链接 到 达 根 触 点 


要 外 点 ~ 驴 pq 0123456789 

加 学 `“ 东 入 0 8 8 

© 9 t t 
© 


find(5) 即 为 find(9) 
id[id[id[5]]] 即 为 id[id[9]] 


> 一 unionO 〇 只 需要 修改 一 个 链接 
pq 0123456789 


59 11 0 8 8 
8 
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1.5.2.4 ”森林 的 表示 

quick-union 算法 的 代码 很 简洁 ， 但 有 些 难 以 理解 。 用 节点 ( 带 标签 的 圆圈 ) 表示 触 点 ， 用 从 一 个 
节点 到 另 一 个 节点 的 箭头 表示 链接 ， 由 此 得 到 数据 结构 的 图 像 表示 使 我 们 理解 算法 的 操作 变 得 相对 容 
易 。 我 们 的 得 到 的 结构 是 树 一 一 从 技术 上 来 说 ，id[] 数组 用 父 链接 的 形式 表示 了 一 片 森林 。 为 了 简 
化 图 表 ， 我 们 常常 会 省 略 链接 的 箭头 〈 因为 它们 的 指向 全 部 朝 上 ) 和 树 的 根 节 点 中 指向 自己 的 链接 。 
tinyURF.txt 的 id[] 数组 所 对 应 的 森林 如 图 1.5.5 所 示 。 无 论 我 们 从 任何 触 点 所 对 应 的 节点 开始 跟随 链接 ， 
最 终 都 将 达到 含有 该 节点 的 树 的 根 节点 。 可 以 用 归纳 法 证 明 这 个 性 质 的 正确 性 : 在 数组 被 初始 化 之 后 ， 
每 个 节点 的 链接 都 指向 它 自 己 ; 如 果 在 某 次 unionO) 操作 之 前 这 条 性 质 成 立 ， 那 么 操作 之 后 它 必然 也 
成 立 。 因 此 ，quick-union 中 的 findQ 方法 能 够 返回 根 节点 所 对 应 的 触 点 的 名 称 (这 样 connected() 
才能 够 判定 两 个 触 点 是 否 在 同一 棵 树 中 ) 。 这 种 表示 方法 对 于 这 个 问题 很 实用 ， 因 为 当 且 仅 当 两 个 触 
点 存在 于 相同 的 分 量 之 中 时 它们 对 应 的 节点 才 会 在 同一 棵 树 中 。 另 外 ， 构 造 树 并 不 困难 : quick-union 
中 union0) 的 实现 只 用 了 一 条 语句 就 将 一 个 根 节点 变 为 另 一 个 根 节点 的 父 节点 ， 从 而 归并 了 两 棵 树 。 
1.5.2.5 quick-union 算法 的 分 析 

quick-union 算法 看 起 来 比 quick-find 算法 更 快 ， 因 为 它 不 需要 为 每 对 输入 遍历 整个 数组 。 但 它 
能 够 快 多 少 呢 ? 分 析 quick-union 算法 的 成 本 比分 析 quick-find 算法 的 成 本 更 困难 ， 因 为 这 依赖 于 输 
入 的 特点 。 在 最 好 的 情况 下 ，find() 只 需要 访问 数组 一 次 就 能 够 得 到 一 个 触 点 所 在 的 分 量 的 标识 
符 ; 而 在 最 坏 情况 下 ,这 需要 2N - 1 次 数组 访问 ,如 图 1.5.6 中 的 0 触 点 (这 个 估计 是 较为 保守 的 ， 
因为 while 循环 中 经 过 编译 的 代码 对 id[p] 的 第 二 次 引用 一 般 都 不 会 访问 数组 ) 。 由 此 我 们 不 难 
构造 一 个 最 佳 情况 的 输入 使 得 解决 动态 连通 性 问题 的 用 例 的 运行 时 间 是 线性 级 别 的 ， 另 一 方面 ， 我 
们 也 可 以 构造 一 个 最 坏 情况 的 输入 ， 此 时 它 的 运行 时 间 是 平方 级 别 的 ( 请 见 图 1.5.6 和 下 面 的 命题 
G ) 。 幸 好 我 们 不 需要 面 对 分 析 quick-union 算法 的 问题 ， 我 们 也 不 会 仔细 对 比 quick-union 算法 和 
quick-find 算法 的 性 能 ， 因 为 我 们 下 面 将 会 学 习 一 种 比 两 者 的 效率 都 高 得 多 的 算法 。 目 前 ， 我 们 可 
以 将 quick-union 算法 看 做 是 quick-find 算法 的 一 种 改良 ， 因 为 它 解决 了 quick-find 算法 中 最 主要 的 
问题 (union() 操作 总 是 线性 级 别 的 ) 。 对 于 一 般 的 输入 数据 这 个 变化 显然 是 一 次 改进 ， 但 quick- 
union 算法 仍然 存在 问题 ， 我 们 不 能 保证 在 所 有 情况 下 它 都 能 比 quick-find 算法 快 得 多 ( 对 于 某 些 输 
入 ，quick-union 算法 并 不 比 quick-find 算法 快 ) 。 
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图 1.5.5 quick-union 算法 的 轨迹 (以 及 相应 的 森林 ) 


定义 。 一 棵 树 的 大 小 是 它 的 节点 的 数量 。 树 中 的 一 个 节点 的 深度 是 它 到 根 节点 的 路 径 上 的 链接 
数 。 树 的 高 度 是 它 的 所 有 节点 中 的 最 大 深度 。 


命题 G。quick-union 算法 中 的 find() 方法 访问 数组 的 次 数 为 1 加 上 给 定 触 点 所 对 应 的 节点 的 
深度 的 两 倍 。union() 和 connected() 访问 数组 的 次 数 为 两 次 find() 操作 (如果 union() 中 
给 定 的 两 个 触 点 分 别 存在 于 不 同 的 树 中 则 还 需要 加 1) 。 


证 明 。 请 见 代码 。 
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同样 ， 假 设 我 们 使 用 quick-union 算法 解决 了 动态 连通 性 问题 并 最 终 只 得 到 了 一 个 分 量 ， 由 命 
题 G 我 们 马上 可 以 知道 算法 的 运行 时 间 在 最 坏 情况 下 是 平方 级 别 的 。 假 设 输入 的 整数 对 是 有 序 的 
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0-1、0-2、0-3 等 ，N-1 对 之 后 我 们 的 入 个 触 点 将 全 部 处 于 相同 的 集合 之 中 且 由 quick-union 算法 得 
到 的 树 的 高 度 为 N-1， 其 中 0 链接 到 1，1 链接 到 2，2 链接 到 3， 如 此 下 去 请 见 图 1.5.6 ) 。 由 命 
题 G 可 知 ， 对 于 整数 对 0 i，union() 操作 访问 数组 的 次 数 为 2i+2 ( 触 点 0 的 深度 为 i， 触 点 i 的 深 
度 为 0) 。 因 此 ， 处 理 NN 对 整数 所 需 的 所 有 findQ 操作 访问 数组 的 总 次 数 为 2(1+2+…+N) ~ NP。 
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图 1.5.6 quick-union 算法 的 最 坏 情况 

1.5.2.6 ”加权 quick-union 算法 

幸好 ， 我 们 只 需 简单 地 修改 quick-union 算法 就 能 保证 像 这 样 的 糟糕 情况 不 再 出 现 。 与 其 在 
union() 中 随意 将 一 棵 树 连接 到 另 一 棵 树 ， 我 们 现在 会 记录 每 一 棵 树 的 大 小 并 总 是 将 较 小 的 树 连 接 
到 较 大 的 树 上 。 这 项 改动 需要 添加 一 个 数组 和 一 些 代码 来 记录 树 中 的 节点 数 ， 如 算法 1.5 所 示 , 但 
它 能 够 大 大 改进 算法 的 效率 。 我 们 将 它 称 为 加 权 quick-union 算法 ( 如 图 1.5.7 所 示 ) 。 该 算法 在 处 
理 tinyUF.txt 时 构造 的 森林 如 图 1.5.8 中 左 侧 的 图 所 示 。 即 使 对 于 这 个 较 小 的 例子 ， 该 算法 构造 的 树 
的 高 度 也 和 远 远 小 于 未 加 权 的 版 本 所 构造 的 树 的 高 度 。 
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图 1.5.7 加 权 quick-union 


1.5.2.7 加权 quick-union 算法 的 分 析 

图 1.5.8 显示 了 加 权 quick-union 算法 的 
最 坏 情况 。 其 中 将 要 被 归并 的 树 的 大 小 总 是 
相等 的 〈 且 总 是 2 的 短 ) 。 这 些 树 的 结构 看 
起 来 很 复杂 ， 但 它们 均 含 有 2 个 节点 ， 因 此 
高 度 都 正好 是 m。 另外 ， 当 我 们 归并 两 个 含 
有 2 个 节点 的 树 时 ， 我 们 得 到 的 树 含有 2”” 
个 节点 ， 由 此 将 树 的 高 度 增加 到 了 n+1。 由 
此 推广 我 们 可 以 证 明 加 权 quick-union 算法 
能 够 保证 对 数 级 别 的 性 能 。 加 权 quick-union 
算法 的 实现 如 算法 1.5 所 示 。 


算法 1.5 ( 续 ) 
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% java WeightedQuickUnionUF < mediumUF.txt 
528 503 
548 523 


3 components 
% java WeightedQuickUnionUF < 1argeUF.txt 


786321 134521 
696834 98245 


6 components 
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union-find 算法 的 实现 (加 权 quick-union 算法 ) 





public class WeightedQuickUnionUF 
{ 
private int[] id; 
private int[] sz; 
private int count; 


{ 
count = N 
id ~ new int[N]; 


for Cint i = 0; 1 < N; i#+) id[i] 


Sz = new int[N]; 


// 艾 链接 数组 ( 由 触 点 索引 ) 

// (由 圾 点 索引 的 ) 各 个 根 节 点 所 对 应 的 分 量 的 大 小 
// 连通 分 量 的 数量 

public WeightedQuickUnionUFCint N) 


i; 


for (int i = 0; 1 < N; i++) sz[i] = 1; 


} 
public int count() 
{ return count; } 


public boolean connected(int p, int 9) 


{ return find(p) find(q) } 
private int findCint p) 
{ // 踩 随 链接 找到 根 节点 

while (p != id[p]) p = id[p]; 





return p; 
} 
public void unionCint p, int q) 
{ 
int 1 = find(p); 
int j = find(q); 
if (1 j) return; 
// 将 小 树 的 根 节点 连接 到 大 树 的 根 节 点 
if (sz[i] < sz[j]) { id[i] = j; sz[j] += sz[i]; } 
else { id[j] = i; sz[i] += sz[j]; } 
count--; 
} 


} 


根据 正文 所 述 的 森林 表示 方法 这 段 代码 很 容易 理解 。 我 们 加 入 了 一 个 由 触 点 索引 的 实例 变量 数组 


sz[] ,这 样 union() 就 可 以 将 小 树 的 根 节点 连接 到 大 树 的 根 节点 。 这 使 得 算法 能 够 处 理 规模 较 大 的 问题 。 
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图 1.5.8 加权 quick-union 算法 的 轨迹 (森林 ) 


命题 H。 对 于 和 个 触 点 ， 加 权 quick-union 算法 构造 的 森林 中 的 任意 节点 的 深度 最 多 为 lgN。 


证 明 。 我 们 可 以 用 归纳 法 证 明 一 个 更 强 的 命题 ， 即 森林 中 大 小 为 天 的 树 的 高 度 最 多 为 lgk。 在 
原始 情况 下 ， 当 大 等 于 1 时 树 的 高 度 为 0。 根据 归纳 法 ， 我 们 假设 大 小 为 i 的 树 的 高 度 最 多 为 
lgi， 其 中 i<k。 设 i 和 <j 且 itj=k， 当 我 们 将 大 小 为 i 和 大 小 为 j 的 树 归并 时 ，quick-union 算法 和 
加 权 quick-union 算法 中 触 点 与 深度 示例 如 图 1.5.9 所 示 。 小 树 中 的 所 有 节点 的 深度 增加 了 1， 
但 它们 现在 所 在 的 树 的 大 小 为 Hj=k， 而 1+lgi=lg(iti) < lg(i+j)=lgk， 性 质 成 立 。 


Te ft 


加 权 quick-union 算 法 


ET OT RFRA 人 人 AT 


图 1.5.9 quick-union 算法 与 加 权 quick-union 算法 的 对 比 (100 个 触 点 ，88 次 union() 操作 ) 


平均 深度 :5.11 
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推论 。 对 于 加 权 quick-union 算法 和 N 个 触 点 ， 在 最 坏 情况 下 findO、connected() 和 
union( 的 成 本 的 增长 数量 级 为 logN。 


证 明 。 在 森林 中 ， 对 于 从 一 个 节点 到 它 的 根 节点 的 路 径 上 的 每 个 节点 ， 每 种 操作 最 多 都 只 会 访 
问 数组 常数 次 。 


对 于 动态 连通 性 问题 ， 命 题 H 和 它 的 推论 的 实际 意义 在 于 加 权 quick-union 算法 是 三 种 算法 中 唯 
一 可 以 用 于 解决 大 型 实际 问题 的 算法 。 加 权 quick-union 算法 处 理 N 个 触 点 和 MM 条 连接 时 最 多 访问 
数组 cMlgN 次 ， 其 中 c 为 常数 。 这 个 结果 和 quick-find 算法 ( 以 及 某 些 情况 下 的 quick-union 算法 ) 
需要 访问 数组 至 少 MN 次 形成 了 鲜明 的 对 比 。 因 此 ， 有 了 加 权 quick-union 算法 我 们 就 能 保证 能 够 在 
合理 的 时 间 范围 内 解决 实际 中 的 大 规模 动态 连通 性 问题 。 只 需要 多 写 几 行 代码 ， 我 们 所 得 到 的 程序 
在 处 理 实际 应 用 中 的 大 型 动态 连通 性 问题 时 就 会 比 简单 的 算法 快 数 百 万 倍 。 

图 1.5.9 显示 的 是 一 个 含有 100 个 触 点 的 例子 。 从 图 中 我 们 可 以 很 明显 地 看 到 ， 加 权 quick- 
union 算法 中 远离 根 节点 的 节点 相对 较 少 。 事 实 上 ， 只 含有 一 个 节点 的 树 被 归并 到 更 大 的 树 中 的 情 
况 很 常见 ， 这 样 该 节点 到 根 节点 的 距离 也 只 有 一 条 链接 而 已 。 针 对 大 规模 问题 的 经 验 性 研究 告诉 我 
们 , 加 权 quick-union 算法 在 解决 实际 问题 时 一 般 都 能 在 常 束 时 间 内 完成 每 个 操作 ( 如 表 1.5.3 所 示 ) 。 
我 们 可 能 很 难 找到 比 它 效率 更 高 的 算法 了 。 230 


表 1.5.3 各 种 union-find 算法 的 性 能 特点 
存在 N 个 触 点 时 成 本 的 增长 数量 级 〈 最 坏 情况 下 ) 























构造 函数 unionO) findO 
quick-find 算法 N N 1 
quick-union 算法 N 树 的 高 度 树 的 高 度 
加 权 quick-union 算法 N lgN lgN 

非常 非常 地 接近 但 仍 没有 达到 1 ( 均 摊 成 本 ) 
使 用 路 径 压缩 的 加 权 quick-union 算法 N (请 见 练习 1.5.13 ) 
理想 情况 N 1 1 
1.5.2.8 ”最 优 算法 


我 们 可 以 找到 一 种 能 够 保证 在 常数 时 间 内 完成 各 种 操作 的 算法 吗 ? 这 个 问题 非常 困难 并 且 困扰 
了 研究 者 们 许多 年 。 在 寻找 答案 的 过 程 中 ， 大 家 研究 了 quick-union 算法 和 加 权 quick-union 算法 的 
各 种 变 体 。 例 如 ， 下 面 这 种 路 径 压缩 方法 很 容易 实现 。 理 想 情 况 下 ， 我 们 希望 每 个 节点 都 直接 链接 
到 它 的 根 节点 上 ， 但 我 们 又 不 想像 quick-find 算法 那样 通过 修改 大 量 链 接 做 到 这 一 点 。 我 们 接近 这 
种 理想 状态 的 方式 很 简单 ， 就 是 在 检查 节点 的 同时 将 它们 直接 链接 到 根 节点 。 这 种 方法 乍 一 看 很 激 
进 ， 但 它 的 实现 非常 容易 ， 而 且 这 些 树 并 没有 阻止 我 们 进行 这 种 修改 的 特殊 结构 : 如 果 这 么 做 能 够 
改进 算法 的 效率 ， 我 们 就 应 该 实现 它 。 要 实现 路 径 压 缩 ， 只 需要 为 find() 添加 一 个 循环 ， 将 在 路 
径 上 过 到 的 所 有 节点 都 直接 链接 到 根 节点 。 我 们 所 得 到 的 结果 是 几乎 完全 扁平 化 的 树 ， 它 和 quick- 
find 算法 理想 情况 下 所 得 到 的 树 非常 接近 。 这 种 方法 即 简单 又 有 效 ， 但 在 实际 情况 下 已 经 不 太 可 能 
对 加 权 quick-union 算法 继续 进行 任何 改进 了 ( 请 见 练习 1.5.24 ) 。 对 该 情况 的 理论 研究 结果 非常 复 
杂 也 值得 我 们 注意 : 路 径 压缩 的 加 权 quick-union 算法 是 最 优 的 算法 ， 但 并 非 所 有 操作 都 能 在 常数 
时 间 内 完成 。 也 就 是 说 ,使 用 路 径 压缩 的 加 权 quick-union 算 法 的 每 个 操作 在 在 最 坏 情 况 下 ( 即 均 排 后 ) 
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都 不 是 常数 级 别 的 ， 而 且 不 存在 其 他 算法 能 够 保证 union-find 算法 的 所 有 操作 在 均 摊 后 都 是 常数 级 
别 的 (在 非常 一 般 的 cell probe 模型 之 下 ) 。 使 用 路 径 压缩 的 加 权 quick-union 算法 已 经 是 我 们 对 于 


这 个 问题 能 够 给 出 的 最 优 解 了 。 
1.5.2.9 均 摊 成 本 的 图 像 

与 对 其 他 任何 数据 结构 实现 的 讨论 一 样 ， 
我 们 应 该 按照 1.4 节 中 的 讨论 在 实验 中 用 典型 
的 用 例 验证 我 们 对 算法 性 能 的 猜想 。 图 1.5.10 
详细 显示 了 我 们 的 动态 连通 性 问题 的 开发 用 
例 在 使 用 各 种 算法 处 理 一 份 含有 625 个 触 点 
的 样 例 数据 (mediumUF.txt) 时 的 性 能 。 绘 
制 这 种 图 像 很 简单 ( 请 见 练习 1.5.16) : 在 
处 理 第 i 个 连接 时 ， 用 一 个 变量 cost 记录 其 
间 访 问 数组 ( id[] 或 sz[] ) 的 次 数 ， 并 用 
一 个 变量 total 记录 到 目前 为 止 数组 访问 的 
总 次 数 。 我 们 在 (i ，cost) 处 画 一 个 灰 点 ， 
在 (i，total/i) 处 画 一 个 红 点 ， 红 点 表示 
的 是 每 个 操作 的 平均 成 本 ， 即 均 摊 成 本 。 图 
像 能 够 帮助 我 们 更 好 地 理解 算法 的 行为 。 对 
于 quick-find 算法 ， 每 次 union() 操作 都 至 
少 访问 数组 625 次 ( 每 归并 一 个 分 量 还 要 加 
1， 最 多 再 加 625) ， 每 次 connected0) 操 
作 都 访问 数组 2 次 。 一 开始 ， 大 多 数 连接 都 
会 产生 一 个 unionQ 调用 ， 因 此 累计 平均 值 
徘徊 在 625 左右 ; 后 来 ， 大 多 数 连接 产生 的 
connected() 调用 会 跳 过 union()， 因 此 累 
计 平 均值 开始 下 降 ， 但 仍 保持 了 相对 较 高 的 
水 平 (能 够 产生 大 量 connected() 调 甲 并 跳 
过 union0) 的 输入 性 能 要 好 得 多 ， 例 子 请 见 
练习 1.5.23 ) 。 对 于 quick-union 算法 ， 所 有 
的 操作 在 初始 阶段 访问 数组 的 次 数 都 不 多 ; 
到 了 后 期 ， 树 的 高 度 成 为 一 个 重要 因素 , 均 
挫 成 本 的 增长 很 明显 。 对 于 加 权 quick-union 
算法 ， 树 的 高 度 一 直 很 小 ,没有 任何 晶 贵 的 
操作 ， 均 挫 成 本 也 很 低 。 这 些 实验 验证 了 我 
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图 1.5.10 所 有 操作 的 总 成 本 
(625 个 触 点 ， 另 见 彩 插 ) 


们 的 结论 ， 显 然 非常 有 必要 实现 加 权 quick-union 算法 ， 在 解决 实际 问题 时 已 经 没有 多 少 进一步 改 


进 的 空间 了 。 
1.5.3 展望 


直观 感觉 上 ， 我 们 学 习 的 每 种 UF 的 实现 都 改进 了 上 一 个 版 本 的 实现 ， 但 这 个 过 程 并 不 突 元 ， 
因为 我 们 可 以 总 结 学 者 们 对 这 些 算法 多 年 的 研究 。 我 们 很 明确 地 说 明了 问题 ， 解 决 方法 的 实现 也 很 
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简单 ， 因 此 可 以 用 经 验 性 的 数据 评估 各 个 算法 的 优 劣 。 另 外 ， 还 可 以 通过 这 些 研究 验证 将 算法 的 
性 能 量化 的 数学 结论 。 只 要 可 能 ， 我 们 在 本 书 中 研究 各 种 基础 问题 时 都 会 遵循 类 似 于 本 节 中 讨论 
union-find 问题 时 的 基本 步骤 ， 在 这 里 我 们 要 再 次 强调 它们 。 

口 完整 而 详细 地 定义 问题 ， 找 出 解决 问题 所 必需 的 基本 抽象 操作 并 定义 一 份 API。 

口 简洁 地 实现 一 种 初级 算法 ， 给 出 一 个 精心 组 织 的 开发 用 例 并 使 用 实际 数据 作为 输入 。 

口 当 实现 所 能 解决 的 问题 的 最 大 规模 达 不 到 期 望 时 决定 改进 还 是 放弃 。 

口 逐步 改进 实现 ， 通 过 经 验 性 分 析 或 ( 和 ) 数学 分 析 验 证 改进 后 的 效果 。 

口 用 更 高 层次 的 抽象 表示 数据 结构 或 算法 来 设计 更 高 级 的 改进 版 本 。 

口 如 果 可 能 尽量 为 最 坏 情 况 下 的 性 能 提供 保证 ， 但 在 处 理 普通 数据 时 也 要 有 良好 的 性 能 。 

口 在 适当 的 时 候 将 更 细致 的 深入 研究 留 给 有 经 验 的 研究 者 并 继续 解决 下 一 个 问题 。 

我 们 从 union-find 问题 中 可 以 看 到 ， 算 法 设计 在 解决 实际 问题 时 能 够 为 程序 的 性 能 带 来 惊人 的 
提高 ， 这 种 潜力 使 它 成 为 热门 研究 领域 。 还 有 什么 其 他 类 型 的 设计 行为 可 能 将 成 本 降 为 原来 的 数 
百 万 甚至 数 十 亿 分 之 一 呢 ? 

设计 高 效 的 算法 是 一 种 很 有 成 就 感 的 智力 活动 ， 同 时 也 能 够 产生 直接 的 实际 效益 。 正 如 动态 连 
通 性 问题 所 示 ， 为 解决 一 个 简单 的 问题 我 们 学 习 了 许多 算法 ， 它 们 不 但 有 用 有 趣 ， 也 精巧 而 引 人 入 
胜 。 我 们 还 将 过 到 许多 新 颖 独特 的 算法 ,它们 都 是 人 们 在 数 十 年 以 来 为 解决 许多 实际 问题 而 发 明 的 。 
随 着 计算 机 算法 在 科学 和 商业 领域 的 应 用 范围 越 来 越 广 ， 能 够 使 用 高 效 的 算法 来 解决 老 问 题 并 为 新 
问题 开发 有 效 的 解决 方案 也 越 来 越 重要 了 。 


图 答 颖 


问 我 希望 为 API 添加 一 个 deleteQ) 方法 来 允许 用 例 删 除 连接 。 能 够 给 我 一 些 建议 吗 ? 

答 目前 还 没有 人 能 够 发 明 既 能 处 理 删除 操作 而 又 和 本 节 中 所 介绍 的 算法 同样 简单 而 高 效 的 算法 。 这 个 
主题 在 本 书 中 会 反复 出 现 。 在 我 们 讨论 的 一 些 数据 结构 中 删除 比 添加 要 困难 得 多 。 

间 cell-probe 模型 是 什么 ? 

答 它 是 一 种 计算 模型 ， 其 中 我 们 只 会 记录 对 随机 内 存 的 访问 ， 内 存 大 小 足以 保存 所 有 输入 且 假 设 其 他 
操作 均 没 有 成 本 。 


图 练 


1.5.1 使 用 quick-find 算法 处 理 序列 9-0 3-4 5-8 7-2 2-1 5-7 0-3 4-2 。 对 于 输入 的 每 一 对 整数 ， 给 出 1d[] 
数组 的 内 容 和 访问 数组 的 次 数 。 

1.5.2 使 用 quick-union 算法 ( 请 见 1.5.2.3 节 代码 框 ) 完成 练习 1.5.1。 另 外 ， 在 处 理 完 输入 的 每 对 整数 
之 后 画 出 id[] 数组 表示 的 森林 。 

1.5.3 ”使 用 加 权 quick-union 算法 (请 见 算法 1.5 ) 完成 练习 1.5.1。 

1.5.4 在 正文 的 加 权 quick-union 算法 示例 中 ， 对 于 输入 的 每 一 对 整数 ( 包括 对 照 输入 和 最 坏 情 况 下 的 输 
入 ) ,给 出 id[] 和 sz[] 数组 的 内 容 以 及 访问 数组 的 次 数 。 

1.5.5 在 一 台 每 秒 能 够 处 理 10” 条 指令 的 计算 机 上 ， 估 计 quick-find 算法 解决 含有 10? 个 触 点 和 105 条 连 
接 的 动态 连通 性 问题 所 需 的 最 短 时 间 ( 以 天 记 ) 。 假 设 内 循环 for 的 每 一 次 迭代 需要 执行 10 条 
机 器 指令 。 
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1.5.6 ”使 用 加 权 quick-union 算法 完成 练习 1.5.5。 
1.5.7 分 别 为 quick-find 算法 和 quick-union 算法 实现 QuickFindUF 类 和 QuickUnionUF 类。 
1.5.8 用 一 个 反例 证 明 quick-find 算法 中 的 union() 方法 的 以 下 直观 实现 是 错误 的 : 
public void unionCint p, int q) 
{ 
if (connected(p, q)) return; 
// 将 pp 的 分 重重 命名 为 q 的 分 量 
for (int i = 0; i < id.length; i++) 
if Cid[i] == id[p]) id[i] = id[q]; 
Count--; 


} 


1.5.9 夯 出 下 面 的 id[] 数组 所 对 应 的 树 。 这 可 能 是 加 权 quick-union 算法 得 到 的 结果 吗 ? 解释 为 什么 不 
可 能 ,或 者 给 出 能 够 得 到 该 数组 的 一 系列 操作 。 








i 0123456789 
235 id[i] 1131561345 
1.5.10 在 加 权 quick-union 算法 中 ， 假 设 我 们 将 id[findCp)] 的 值 设 为 q 而 非 id[findCq)] ， 所 得 的 


算法 是 正确 的 吗 ? 

答 : 是 ,但 这 会 增加 树 的 高 度 ， 因 此 无 法 保证 同样 的 性 能 。 
1.5.11 实现 加 权 quick-find 算法 ， 其 中 我 们 总 是 将 较 小 的 分 量 重 命名 为 较 大 的 分 量 的 标识 符 。 这 种 改变 
236 会 对 性 能 产生 怎样 的 影响 ? 











图 提高 是 


1.5.12 使 用 路 径 压缩 的 quick-union 算法 。 根 据 路 径 压缩 修改 quick-union 算法 ( 请 见 1.5.23 节 ) ,在 
findO 方法 中 添加 一 个 循环 来 将 从 p 到 根 节 点 的 路 径 上 的 每 个 触 点 都 连接 到 根 节点 。 给 出 一 列 
和 输入， 使 该 方法 能 够 产生 一 条 长 度 为 4 的 路 径 。 注 意 : 该 算法 的 所 有 操作 的 均 捧 成 本 已 知 为 对 
数 级 别 。 

1.5.13 使 用 路 径 压缩 的 加 权 quick-union 算法 。 修改 加 权 quick-union 算法 (算法 1.5 ) , 实现 如 练习 1.5.12 
所 述 的 路 径 压 缩 。 给 出 一 列 输入 ， 使 该 方法 能 够 产生 一 棵 高 用 为 4 的 树 。 注 意 : 该 算法 的 所 有 
操作 的 均 挫 成 本 已 知 被 限制 在 反 Ackermann 函数 的 范围 之 内 ， 且 对 于 实际 应 用 中 可 能 出 现 的 所 
有 AN 值 均 小 于 5。 

1.5.14 根据 高 度 加 权 的 quick-union 算法 。 给 出 UF 的 一 个 实现 , 使 用 和 加 权 quick-union 算法 相同 的 策略 ， 
但 记录 的 是 树 的 高 度 并 总 是 将 较 矮 的 树 连接 到 较 高 的 树 上 。 用 算法 证 明 N 个 触 点 的 树 的 高 度 不 
会 超过 其 大 小 的 对 数 级 别 。 

1.5.15 二 项 树 。 请 证 明 , 对 于 加 权 quick-union 算法 , 在 最 坏 情况 下 树 中 每 一 层 的 节点 数 均 为 二 项 式 系数 。 
在 这 种 情况 下 ， 计 算 含有 N=2” 个 节点 的 树 中 节点 的 平均 深度 。 

1.5.16 均 捧 成 本 的 图 像 。 修 改 你 为 练习 1.5.7 给 出 的 实现 ， 绘 出 如 正文 所 示 的 均 摊 成 本 的 图 像 。 

1.5.17 随机 连接 。 设 计 UF 的 一 个 用 例 ErdosRenyi， 从 命令 行 接受 一 个 整数 N， 在 0 到 N-1 之 间 产生 随 
机 整数 对 ， 调 用 connectedO) 判断 它们 是 否 相连 ， 如 果 不 是 则 调用 union() 方法 ( 和 我 们 的 开 
发 用 例 一 样 ) 。 不 断 循环 直到 所 有 触 点 均 相互 连通 并 打印 出 生成 的 连接 总 数 。 将 你 的 程序 打包 
成 一 个 接受 参数 N 并 返回 连接 总 数 的 静态 方法 count() 、 添 加 一 个 main() 方法 从 命令 行 接受 N， 
调用 count 0O) 并 打印 它 的 返回 值 。 


1.5.18 


1.5.19 


1.5.20 
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随机 网 格 生成 器 。 编 写 一 个 程序 RandomGrid， 从 命令 行 接受 一 个 int 值 N， 生 成 一 个 NxN 的 
网 格 中 的 所 有 连接 。 它 们 的 排列 随机 且 方 向 随机 ( 即 (p q) 和 (q p) 出 现 的 可 能 性 是 相等 的 ) ,将 
这 个 结果 打印 到 标准 输出 中 。 可 以 使 用 RandomBag 将 所 有 连接 随机 排列 ( 请 见 练习 1.3.34 ) ， 
并 使 用 如 右 下 所 示 的 Connection 嵌 套 类 来 将 p 和 q 封装 到 一 个 对 象 中 。 将 程序 打包 成 两 个 静态 
方法 : generate()， 接 受 参数 N 并 返回 一 个 连接 的 数组 ; main() ， 从 命令 行 接受 参数 N， 调 用 
generate() ,遍历 返回 的 数组 并 打印 出 所 有 连接 。 

动画 。 编 写 一 个 RandomGrid ( 请 见 练习 1.5.18 ) 

的 用 例 ， 和 我 们 的 开发 用 例 一 样 使 用 UnionFind BE class Connection 

来 检查 触 点 的 连通 性 并 在 处 理 的 同时 用 StdDraw int pi 

将 它们 绘 出 。 ‘me qi 

动态 生长 。 使 用 链表 或 大 小 可 变 的 数组 实现 加 权 public ConnectionCint p, int q) 
quick-union 算法 ， 去 掉 需 要 预先 知道 对 象 数量 {sD "Pi this:q mq; 

的 限制 。 为 API 添加 一 个 新 方法 newSite()， 

它 应 该 返回 一 个 类 型 为 int 的 标识 符 。 封装 连接 的 嵌 套 类 
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1.5.21 


1.5.22 


1.5.23 


1.5.24 


1.5.25 


1.5.26 


Erd6s-Renyi 模型 。 使 用 练习 1.5.17 的 用 例 验证 这 个 猜想 ， 得 到 单个 连通 分 量 所 需 生成 的 整数 对 
数量 为 ~1/2NinN。 

Erd6s-Renyi 模型 的 倍率 实验 。 开 发 一 个 性 能 测试 用 例 ， 从 命令 行 接受 一 个 int 值 T 并 进行 T 次 
以 下 实验 : 使 用 练习 1.5.17 的 用 例 生成 随机 连接 ， 和 我 们 的 开发 用 例 一 样 使 用 UnionFind 来 检 
查 触 点 的 连通 性 ， 不 断 循环 直到 所 有 触 点 均 相互 连通 。 对 于 每 个 N， 打 印 出 N 值 和 平均 所 需 的 连 
接 数 以 及 前 后 两 次 运行 时 间 的 比值 。 使 用 你 的 程序 验证 正文 中 的 猜想 .quick-find 算法 和 quick- 
union 算法 的 运行 时 间 是 平方 级 别 的 ， 加 权 quick-union 算法 则 接近 线性 级 别 。 

在 Erd6s-Renyi 模型 下 比较 quick-find 算法 和 quick-union 算法 。 开 发 一 个 性 能 测试 用 例 ， 从 命令 
行 接受 一 个 int 值 T 并 进行 T 次 以 下 实验 : 使 用 练习 1.5.17 的 用 例 生成 随机 连接 。 保 存 这 些 连 
接 并 和 我 们 的 开发 用 例 一 样 分 别 用 quick-find 算法 和 quick-union 算法 检查 触 点 的 连通 性 ， 不 断 
循环 直到 所 有 触 点 均 相互 连通 。 对 于 每 个 N， 打 印 出 N 值 和 两 种 算法 的 运行 时 间 的 比值 。 

适用 于 Erd5s-Renyi 模型 的 快速 算法 。 在 练习 1.5.23 的 测试 中 增加 加 权 quick-union 算法 和 使 用 路 
径 压缩 的 加 权 quick-union 算法 。 你 能 分 辨 出 这 两 种 算法 的 区 别 吗 ? 

随机 网 格 的 倍率 测试 。 开 发 一 个 性 能 测试 用 例 , 从 命令 行 接受 一 个 int 值 T 并 进行 T 次 以 下 实验 ， 
使 用 练习 1.5.18 的 用 例 生成 一 个 NxN 的 随机 网 格 ， 所 有 连接 的 方向 随机 且 排 列 随机 。 和 我 们 的 
开发 用 例 一 样 使 用 UnionFind 来 检查 触 点 的 连通 性 ， 不 断 循环 直到 所 有 触 点 均 相互 连通 。 对 于 每 
个 N， 打 印 出 N 值 和 平均 所 需 的 连接 数 以 及 前 后 两 次 运行 时 间 的 比值 。 使 用 你 的 程序 验证 正文 中 
的 猜想 ，quick-find 算法 和 quick-union 算法 的 运行 时 间 是 平方 级 别 的 ， 加 权 quick-union 算法 则 
接近 线性 级 别 。 注 意 : 随 着 N 值 加 倍 ， 网 格 中 触 点 的 数量 会 乘 4， 因 此 平方 级 别 的 算法 的 运行 时 
间 会 变 为 原来 的 16 倍 ， 线 性 级 别 的 算法 的 运行 时 间 则 变 为 原来 的 4 售 。 

Erd5s-Renyi 模型 的 均 摊 成 本 图 像 。 开 发 一 个 用 例 ， 从 命令 行 接受 一 个 int 值 N, 在 0 到 N-1 之 
间 产 生 随机 整数 对 ， 调 用 connected( 判断 它们 是 否 相连 ， 如 果 不 是 则 调用 unionQ 方法 ( 和 
我 们 的 开发 用 例 一 样 ) 。 不 断 循环 直到 所 有 触 点 均 相 互 连 通 。 按 照 正文 的 样式 将 所 有 操作 的 均 
挫 成 本 绘制 成 图 像 。 
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排序 就 是 将 一 组 对 象 按照 某 种 逻辑 顺序 重新 排列 的 过 程 。 比 如 ， 信 用 卡 账单 中 的 交易 是 按照 昌 
期 排序 的 一 一 这 种 排序 很 可 能 使 用 了 某 种 排序 算法 。 在 计算 时 代 早期 ， 大 家 普遍 认为 30% 的 计算 
周期 都 用 在 了 排序 上 。 如 果 今天 这 个 比例 降低 了 ， 可 能 的 原因 之 一 是 如 今 的 排序 算法 更 加 高 效 ， 而 
并 非 排序 的 重要 性 降低 了 。 现 在 计算 机 的 广泛 使 用 使 得 数据 无 处 不 在 ， 而 整理 数据 的 第 一 步 通常 就 
是 进行 排序 。 所 有 的 计算 机 系统 都 实现 了 各 种 排序 算法 以 供 系统 和 用 户 使 用 。 

即使 你 只 是 使 用 标准 库 中 的 排序 函数 ， 学 习 排 序 算法 仍然 有 三 大 实际 意义 : 

口 对 排序 算法 的 分 析 将 有 助 于 你 全 面 理解 本 书 中 比较 算法 性 能 的 方法 ; 

口 类 似 的 技术 也 能 有 效 解决 其 他 类 型 的 问题 ; 

口 排序 算法 常常 是 我 们 解决 其 他 问题 的 第 一 步 。 

更 重要 的 是 这 些 算法 都 很 经 典 、 优 雅 和 高 效 。 

排序 在 商业 数据 处 理 和 现代 科学 计算 中 有 着 重要 的 地 位 ， 它 能 够 应 用 于 事物 处 理 、 组 合 优化 、 
天 体 物理 学 、 分 子 动力 学 、 语 言 学 、 基 因 组 学 、 天 气 预报 和 很 多 其 他 领域 。 其 中 一 种 排序 算法 ( 快 
速 排序 ， 见 2.3 节 ) 甚至 被 誉 为 20 世纪 科学 和 工程 领域 的 十 大 算法 之 一 。 

在 本 章 中 我 们 将 学 习 几 种 经 典 的 排序 算法 ， 并 高 效 地 实现 了 “优先 队列 ”这 种 基础 数据 类 型 。 
我 们 将 讨论 比较 排序 算法 的 理论 基础 并 在 本 章 结尾 总 结 若干 排序 算法 和 优先 队列 的 应 用 。 
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2.1 初级 排序 算法 


作为 对 排序 算法 领域 的 第 一 次 探索 , 我 们 将 学 习 两 种 初级 的 排序 算法 以 及 其 中 一 种 的 一 个 变 体 。 
深入 学 习 这 些 相对 简单 的 算法 的 原因 在 于 : 第 一 ,我 们 将 通过 它们 熟悉 一 些 术语 和 简单 的 技巧; 第 二 ， 
这 些 简单 的 算法 在 某 些 情况 下 比 我 们 之 后 将 会 讨论 的 复杂 算法 更 有 效 ; 第 三 ， 以 后 你 会 发 现 ， 它 们 
有 助 于 我 们 改进 复杂 算法 的 效率 。 


2.1.1 游戏 规则 

我 们 关注 的 主要 对 象 是 重新 排列 数组 元 素 的 算法 ， 其 中 每 个 元 素 都 有 一 个 主键 。 排 序 算法 的 目 
标 就 是 将 所 有 元 素 的 主键 按照 某 种 方式 排列 ( 通常 是 按照 大 小 或 是 字母 顺序 ) 。 排 序 后 索引 较 大 的 
主键 大 于 等 于 索引 较 小 的 主键 。 元 素 和 主键 的 具体 性 质 在 不 同 的 应 用 中 千差万别 。 在 Java 中 ， 元素 
通常 都 是 对 象 , 对 主键 的 抽象 描述 则 是 通过 一 种 内 置 的 机 制 ( 请 见 2.1.1.4 节 中 的 Comparable 接口 ) 
来 完成 的 。 

“排序 算法 类 模版 ”中 的 Example 类 展示 了 我 们 的 习惯 约定 : 我 们 会 将 排序 代码 放 在 类 的 
sort() 方法 中 ， 该 类 还 将 包含 辅助 函数 less() 和 exch()( 可 能 还 有 其 他 辅助 函数 ) 以 及 一 个 示 
例 用 例 main()。Example 类 还 包含 了 一 些 早期 调试 使 用 的 代码 : 测试 用 例 main() 将 标准 输入 得 
到 的 字符 串 排 序 ， 并 用 私有 方法 show() 打印 字符 数组 的 内 容 。 我 们 还 会 在 本 章 中 过 到 各 种 用 于 比 
较 不 同 算法 并 研究 它们 的 性 能 的 测试 用 例 。 为 了 区 别 不 同 的 排序 算法 ， 我 们 为 相应 的 类 取 了 不 同 
的 名 字 ， 用 例 可 以 根据 名 字 调 用 不 同 的 实现 ， 例 如 Insertion.sort()、Merge.sort()、Quick. 
sort() 等 。 

大 多 数 情况 下 ， 我 们 的 排序 代码 只 会 通过 两 个 方法 操作 数据 ; less() 方法 对 元 素 进行 比较 ， 
exch() 方法 将 元 素 交 换 位 置 。exch() 方法 的 实现 很 简单 ， 通 过 Comparable 接口 实现 1ess() 方 
法 也 不 困难 。 将 数据 操作 限制 在 这 两 个 方法 中 使 得 代码 的 可 读 性 和 可 移植 性 更 好 ， 更 容易 验证 代码 
的 正确 性 、 分 析 性 能 以 及 排序 算法 之 间 的 比较 。 在 学 习 具体 的 排序 算法 实现 之 前 ， 我 们 先 讨论 几 个 
对 于 所 有 排序 算法 都 很 重要 的 问题 。 244] 


排序 算法 类 的 模板 

















public class Example 
{ 

public static void sort(Comparable[] a) 

人 /* 请 见 算法 2.1、 算 法 2.2、 算 法 2.3、 算 法 2.4、 算 法 2.5 或 算法 2.7*/ } 


private static boolean less(Comparable v, Comparable w) 
{ return v.compareTo(w) < 0; } 


private static void exch(Comparable[] a, int i, int j) 
{ Comparable t+ = a[i]; a[i] = a[j]; ar[j] = t; } 


private static void show(Comparable[] a) 
{ // 在 单行 中 打印 数组 
for (int i = 0; i < a.length; i++) 
StdOut.print(a[i] + " "); 
Stdout.printlnO; 


more tiny.txt 
ORTEXAMPLE 
j 


ava Example < tiny.txt 


% 
S 
public static boolean isSorted(Comparable[] a) % 
AEELMOPRSTX 


{ // 测试 数组 元 素 是 否 有 序 
for (int ij = 1; i < a.length; i++) 
if (less(a[i], a[i-1])) return false; 
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return true; 


public static void main(String[] 


args) % more words3.txt 
{ // 从 标准 输入 读 取 字符 串 ， 将 它们 排序 并 输出 bed bug dad yes zoo ... all bad yet 
String[] a = In.readStringsO); 
sortCays % java Example < words.txt 
assert isSorted(a); all bad bed bug dad ... yes yet zoo 
show(a); 


} 
} 
这 个 类 展示 的 是 数组 排序 实现 的 框架 。 对 于 我 们 学 习 的 每 种 排序 算法 ， 我 们 都 会 为 这 样 一 个 类 实现 
一 个 sort 0) 方法 并 将 Example 改 为 算法 的 名 称 。 测 试用 例会 将 标准 输入 得 到 的 字符 串 排序 ， 但 是 这 段 


[245] 代码 使 我 们 的 排序 方法 适用 于 任意 实现 了 Comparable 接口 的 数据 类 型 。 





2.1.1.1 验证 

无 论 数组 的 初始 状态 是 什么 ,排序 算法 都 能 成 功 吗 ? 谨慎 起 见 ， 我 们 会 在 测试 代码 中 添加 一 条 
语句 assert isSorted(a); 来 确认 排序 后 数组 元 素 都 是 有 序 的 。 尽管 一 般 都 会 测试 代码 并 从 数学 
上 证 明 算法 的 正确 性 ,但 在 实现 每 个 排序 算法 时 加 上 这 条 语句 仍然 是 必要 的 。 需要 注意 的 是 ， 如 果 
我 们 只 使 用 exch() 来 交换 数组 的 元 素 ， 这 个 测试 就 足够 了 。 当 我 们 直接 将 值 存 人 数组 中 时 ， 这 条 
语句 无 法 提供 足够 的 保证 ( 例如， 把 初始 输入 数组 的 元 素 全 部 置 为 相同 的 值 也 能 通过 这 个 测试 ) 。 
2.1.1.2 运行 时 间 

我 们 还 要 评估 算法 的 性 能 。 首 先 ， 要 计算 各 个 排序 算法 在 不 同 的 随机 输入 下 的 基本 操作 的 次 数 
(包括 比较 和 交换 ， 或 者 是 读 写 数组 的 次 数 ) 。 然 后 ， 我 们 用 这 些 数据 来 估计 算法 的 相对 性 能 并 介 
绍 在 实验 中 验证 这 些 猪 想 所 使 用 的 工具 。 对 于 大 多 数 实现 ， 代码 风格 一 致 会 使 我 们 更 容易 作出 对 性 
能 的 合理 猜想 。 


排序 成 本 模型 。 在 研究 排序 算法 时 ， 我 们 需要 计算 比较 和 交换 的 数量 。 对 于 不 交换 元 来 的 算法 ， 
我 们 会 计算 访问 数组 的 次 数 。 


2.1.1.3 ”额外 的 内 存 使 用 

排序 算法 的 额外 内 存 开销 和 运行 时 间 是 同等 重要 的 。 排序 算法 可 以 分 为 两 类 ;除了 函数 调用 所 
需 的 栈 和 固定 数目 的 实例 变量 之 外 无 需 额 外 内 存 的 原 地 排序 算法 ， 以 及 需要 额外 内 存 空间 来 存储 另 
一 份 数组 副本 的 其 他 排序 算法 。 
2.1.1.4 数据 类 型 

我 们 的 排序 算法 模板 适用 于 任何 实现 了 Comparable 
接口 的 数据 类型。 遵守 Java 惯例 的 好 处 是 很 多 你 希望 排 。 9oubls 80 epeubecu 
序 的 数据 都 实现 了 Comparable 接口 。 例 如 ，Java 中 封装 a[i] = StdRandom.uniform(); 
数字 的 类 型 Integer 和 Double， 以 及 String 和 其 他 许 。 icksort(a); 
多 高 级 数据 类 型 (如 File 和 URL ) 都 实现 了 Comparable 将 N 个 随机 值 的 数组 排序 
接口 。 因 此 你 可 以 直接 用 这 些 类 型 的 数组 作为 参数 调用 我 
们 的 排序 方法 。 例 如 ， 右 上 方 的 代码 使 用 了 快速 排序 (请 见 23 节 ) 来 对 N 个 随机 的 Double 数据 进 
行 排序 。 
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在 创建 自己 的 数据 类 型 时 ， 我 们 只 public class Date implements Comparable<Date> 
要 实现 Comparable 接口 就 能 够 保证 用 { 


例 代码 可 以 将 其 排序 。 要 做 到 这 一 点 ， Pein inal tok dos 
private final int month; 
只 需要 实现 一 个 compareTo() 方法 来 private final int year; 
定义 目标 类 型 对 象 的 自然 次 序 ， 如 右 侧 public Date(int d, int m, int y) 
的 Date 数据 类 型 所 示 ( 参见 表 1.2.12 ) 。 { day = d; month = m; year = y; } 
对 于 v<w、v=w 和 v>w 三 种 情况 ， public int day() { return day; } 
public int monthO) { return month; } 


Java 的 习惯 是 在 v.compareTo(w) 被 
调用 时 分 别 返回 一 个 负 整数 、 零 和 一 


public int yearO { return year; } 


public int compareTo(Date that) 


个 正 整数 (一般 是 -1、0 和 1) 。 为 了 { 各 
if Cthis.year > that.year ) return +1; 
节约 篇 幅 ， 我 们 接 下 来 用 v>w 来 表示 if Cthis.year < that year ) return -1; 
v.compareTo(w)>0 这 样 的 代码 。 一 般 if (this.month > that.month) return +1; 

. or i if (this.month < that.month) return -1; 
来 说 ， 如 果 v 和 w 无 法 比较 或 者 两 者 之 if (this:day > that day ) return +1; 
-是 nu11,v.compareTo(w) 将 会 抛 出 if (this.day < that.day ) return -1; 
一 个 异常 。 此 外 ，compareToC 必须 实 了 
现 一 个 完整 的 比较 序列 ， 即 ; public String toStringO 

口 自 反 性 ， 对 于 所 有 的 v，v=v; { return month + "/" + day + "/” + year; } 





口 反 对 称 性 ， 对 于 所 有 的 vw 都 ”1 
ot mudi 定义 一 个 可 比较 的 数据 类 型 
口 传递 性 , 对 于 所 有 的 vw 和 x。 
如 果 v<=w 上 且 w<=x， 则 v<=x。 
从 数学 上 来 说 这 些 规则 都 很 标准 和 自然 ， 遵 守 它们 应 该 不 难 。 总 之 ，compareTo() 实现 了 我 们 
的 主键 抽象 一 它 给 出 了 实现 了 Comparable 接口 的 任意 数据 类 型 的 对 象 的 大 小 顺序 的 定义 。 需 要 
注意 的 是 compareTo( 方法 不 一 定 会 用 到 进行 比较 的 实例 的 所 有 实例 变量 ， 毕 况 数 组 元 素 的 主键 
很 可 能 只 是 每 个 元 素 的 一 小 部 分 。 
本 章 剩余 简 幅 将 会 讨论 对 一 组 自然 次 序 的 对 象 进行 排序 的 各 种 算法 。 为 了 比较 和 对 照 各 种 算 
法 ， 我 们 会 检查 它们 的 许多 性 质 ， 包 括 在 各 种 输入 下 它们 比较 和 交换 数组 元 素 的 次 数 以 及 额外 内 
存 的 使 用 量 。 通 过 这 些 我 们 能 够 对 它们 的 性 能 作出 猪 想 ， 而 这 些 猪 想 在 过 去 的 数 十 年 间 已 经 在 天 
数 的 计算 机 上 被 验证 过 了 。 所 有 的 实现 都 是 需要 通过 检验 的 ， 所 以 我 们 也 会 讨论 相关 的 工具 。 在 
研究 经 典 的 选择 排序 、 插 入 排序 、 希 尔 排序 、 归 并 排序 、 快 速 排序 和 堆 排序 之 后 ， 我 们 将 在 2.5 
季 讨 论 一 些 实际 的 应 用 和 问题 。 227 


2.1.2 选择 排序 


一 种 最 简单 的 排序 算法 是 这 样 的: 首先 ， 找 到 数组 中 最 小 的 那个 元 素 ， 其 次 ， 将 它 和 数组 的 第 
一 个 元 素 交换 位 置 ( 如 果 第 一 个 元 素 就 是 最 小 元 素 那么 它 就 和 自己 交换 ) 。 再 次 ， 在 剩 下 的 元 素 中 
找到 最 小 的 元 素 ， 将 它 与 数组 的 第 二 个 元 素 交 换 位 置 。 如 此 往复 ， 直 到 将 整个 数组 排序 。 这 种 方法 
叫做 选择 排序 ， 因 为 它 在 不 断 地 选择 剩余 元 素 之 中 的 最 小 者 。 

如 算法 2.1 所 示 ， 选 择 排序 的 内 循环 只 是 在 比较 当前 元 素 与 目前 已 知 的 最 小 元 素 ( 以 及 将 当前 
索引 加 1 和 检查 是 否 代码 越界 ) ， 这 已 经 简单 到 了 极点 。 交 换 元 素 的 代码 写 在 内 循环 之 外 ， 每 次 交 
换 都 能 排 定 一 个 元 素 ， 因 此 交换 的 总 次 数 是 N。 所 以 算法 的 时 间 效率 取决 于 比较 的 次 数 。 
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命题 A。 对 于 长 度 为 的 数组 ， 选 择 排序 需要 大 约 Ni/2 次 比较 入 次 交换 。 


证 明 。 可 以 通过 算法 的 排序 轨迹 来 证 明 这 一 点 。 我 们 用 一 张 NXN 的 表格 来 表示 排序 的 轨迹 ( 见 
算法 2.1 下 部 的 表格 )， 其 中 每 个 非 灰 色 字 符 都 表示 一 次 比较 。 表格 中 大 约 一 半 的 元 素 不 是 认 
色 的 一 一 即 对 角 线 和 其 上 部 分 的 元 素 。 对 角 线 上 的 每 个 元 素 都 对 应 着 一 次 交换 。 通 过 查看 代码 
我 们 可 以 更 精确 地 得 到 ，0 到 N_1 的 任意 ?都 会 进行 一 次 交换 和 N-1-i 次 比较 ， 因 此 总 共有 N 
次 交换 以 及 (N-1)+(N-2)+…+2+1=N(N-1)/2 ~ MP/2 次 比较 。 


总 的 来 说 ， 选 择 排序 是 一 种 很 容易 理解 和 实现 的 简单 排序 算法 ， 它 有 两 个 很 鲜明 的 特点 。 

运行 时 间 和 输入 无 关 。 为 了 找 出 最 小 的 元 素 而 扫描 一 遍 数 组 并 不 能 为 下 一 遍 扫 描 提供 什么 信息 。 
这 种 性 质 在 某 些 情 况 下 是 缺点 ， 因 为 使 用 选择 排序 的 人 可 能 会 惊讶 地 发 现 ， 一 个 已 经 有 序 的 数组 或 
是 主键 全 部 相等 的 数组 和 一 个 元 素 随 机 排列 的 数组 所 用 的 排序 时 间 况 然 -- 样 长 ! 我 们 将 会 看 到 ， 其 
他 算法 会 更 善于 利用 输入 的 初始 状态 。 

数据 移动 是 最 少 的 。 每 次 交换 都 会 改变 两 个 数组 元 素 的 值 ， 因 此 选择 排序 用 了 入 次 交换 一 一 交 
换 次 数 和 数组 的 大 小 是 线性 关系 。 我 们 将 研究 的 其 他 任何 算法 都 不 具备 这 个 特征 ( 大 部 分 的 增长 数 

248] ” 量 级 都 是 线性 对 数 或 是 平方 级 别 ) 。 


算法 2.1 选择 排序 


public class Selection 

















public static void sort(Comparable[] a) 
{ AL/ 将 a[] 按 升序 排列 
int N = a.length; // 数组 长 度 
for Cint i = 0; i < Ni i++) 
一// 将 a[ 订 和 a[i+1..N] 中 最 小 的 元 素 交换 
// 最 小 元 素 的 索引 
) 





j，a[min])) min = j; 
exchCa, 1, min); 


} 
// less()、exch()、isSorted() 和 main() 方 法 见 “排序 算法 类 模板 ” 


该 算法 将 第 i 小 的 元 素 放 到 a[i] 之 中 。 数 组 的 第 i 个 位 置 的 左边 是 i 个 最 小 的 元 素 且 它 们 不 会 再 


被 访问 。 
a[] 
inin 01234567 8 910 算法 在 黑色 的 
5 0 RT E Xa Ni Pf tL E 元康 中 于 找 最 小 值 
0 6 sonrTr E We L 
1 4 0 RT 上 WH, Ee 加 租 的 元 
2 0 R T 0 Xx S M P L EE 米 部 是 a[min] 
3 9 T 0 x Ss Mm PpP LR 
4 7 0 BW 
其 ~、 站 Xo | Ode 
6 8 SM 
7 10 ST 
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8 8 S T 二 
9 9 T X “灰色 的 元 
-于 都 已 经 排 定 
| -下 各 大 现役 .时 7 外 这 


选择 排序 的 轨迹 (每 次 交换 后 的 数组 内 容 ) 





2.1.3 插入 排序 

通常 人 们 整理 桥牌 的 方法 是 一 张 一 张 的 来 , 将 每 一 张 牌 插入 到 其 他 已 经 有 序 的 牌 中 的 适当 位 置 。 
在 计算 机 的 实现 中 ， 为 了 给 要 插入 的 元 素 腾 出 空间 ， 我 们 需要 将 其 余 所 有 元 素 在 插入 之 前 都 向 右 移 
动 一 位 。 这 种 算法 叫做 插入 排序 ， 实 现 请 见 算法 2.2。 

与 选择 排序 一 样 ， 当 前 索引 左边 的 所 有 元 素 都 是 有 序 的 ， 但 它们 的 最 终 位 置 还 不 确定 ， 为 了 给 
更 小 的 元 素 腾 出 空间 ， 它 们 可 能 会 被 移动 。 但 是 当 索 引 到 达 数 组 的 右 端 时 ， 数 组 排序 就 完成 了 。 

和 选择 排序 不 同 的 是 ， 插 入 排序 所 需 的 时 间 取 决 于 输入 中 元 素 的 初始 顺序 。 例 如 ， 对 一 个 很 大 
且 其 中 的 元 素 已 经 有 序 ( 或 接近 有 序 ) 的 数组 进行 排序 将 会 比 对 随机 顺序 的 数组 或 是 逆序 数组 进行 
排序 要 快 得 多 。 


命题 B。 对 于 随机 排列 的 长 度 为 V 且 主键 不 重复 的 数组 ， 平 均 情 况 下 插入 排序 需要 ~ NJ4 次 比 
较 以 及 ~ N14 次 交换 。 最 坏 情况 下 需要 ~ N/2 次 比较 和 ~ N/2 次 交换 ， 最 好 情况 下 需要 N-1 
次 比较 和 0 次 交换 。 


证 明 。 和 命题 A 一 样 ， 通 过 一 个 Nx N 的 轨迹 表 可 以 很 容易 就 得 到 交换 和 比较 的 次 数 。 最 坏 情 
况 下 对 角 线 之 下 所 有 的 元 来 都 需要 移动 位 置 ， 最 好 情况 下 都 不 需要 。 对 于 随机 排列 的 数组 ， 在 
平均 情况 下 每 个 元 素 都 可 能 向 后 移动 半 个 数组 的 长 度 ， 因 此 交换 总 数 是 对 角 线 之 下 的 元 素 总 数 
的 二 分 之 一 。 

比较 的 总 次 数 是 交换 的 次 数 加 上 一 个 额外 的 项 ， 该 项 为 入 减 去 被 插入 的 元 素 正 好 是 已 知 的 最 小 
元 素 的 次 数 。 在 最 坏 情况 下 ( 逆序 数组 ) ， 这 一 项 相对 于 总 数 可 以 忽略 不 计 ; 在 最 好 情况 下 ( 数 
组 已 经 有 序 ) ， 这 一 项 等 于 N-1。 


插入 排序 对 于 实际 应 用 中 常见 的 某 些 类 型 的 非 随机 数组 很 有 效 。 例 如 ， 正 如 刚才 所 提 到 的 ， 想 
想 当 你 用 插入 排序 对 一 个 有 序数 组 进行 排序 时 会 发 生 什么 。 插 入 排序 能 够 立即 发 现 每 个 元 素 都 已 经 
在 合适 的 位 置 之 上 , 它 的 运行 时 间 也 是 线性 的 ( 对 于 这 种 数组 , 选择 排序 的 运行 时 间 是 平方 级 别 的 ) 。 
对 于 所 有 主键 都 相同 的 数组 也 会 出 现 相同 的 情况 因此 命题 B 的 条 件 之 一 就 是 主键 不 重复 ) 。 


算法 2.2 插入 排序 





public class Insertion 
{ 
public static void sort(Comparable[] a) 
{ // 将 a[] 按 升序 排列 
int N = a.length; 
for (int 1 = 1; 1 < N; i++) 
{ // 将 a[i] 插入 到 a[i-1]、a[i-2]、a[i-3]... 之 中 
for (int j = i; j > 0 && less(a[j], alj-1]); j--) 
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exch(a, j, j-D; 
} 


} 
// less()、exch()、isSorted() 和 main() 方 法 见 “ 排 序 算法 类 模板 ” 


} 
对 于 0 到 N-1 之 间 的 每 一 个 i, 将 a[i 记 与 a[0] 到 a[i-1] 中 比 它 小 的 所 有 元 素 依次 有 序 地 交换 。 
在 索引 i 由 左 向 右 变化 的 过 程 中 , 它 左 侧 的 元 素 总 是 有 序 的 , 所 以 当 i 到 达 数组 的 右 端 时 排序 就 完成 了 。 





a[] 

vi 多 567 8 910 

so 生 AMPLE 灰色 的 元 

se 

1 oos 一 素 不 会 移动 
2 1 RS 
3 3 T 
40E0 RS T 加 相 的 元 
2 » 素 就 是 arj] 
6 0AEORST X 
0 RS TX 为 了 插入 新 的 元 
8 4 P R 5 T X 一 玉 , 黑色 的 元 素 
9 2 LMOPRSTX 都 向 右 移动 了 一 格 
10 2 LMOP RS TX 

来 是- 芥 有 于 六- 有 下 其 


插入 排序 的 轨迹 (每 次 插入 后 的 数组 内 容 ) 





我 们 要 考虑 的 更 一 般 的 情况 是 部 分 有 序 的 数组 。 倒 置 指 的 是 数组 中 的 两 个 顺序 颠倒 的 元 素 。 比 
如 EXAMPLE 中 有 11 对 倒置 ; E-A、X-A、X-M、X-P、X-L、X-E、M-L、M-E、P-L、P-E 
以 及 L-E。 如 果 数组 中 倒置 的 数量 小 于 数组 大 小 的 某 个 倍数 ， 那 么 我 们 说 这 个 数组 是 部 分 有 序 的 。 
下 面 是 几 种 典型 的 部 分 有 序 的 数组 : 

口 数组 中 每 个 元 素 距 离 它 的 最 终 位 置 都 不 远 ; 

口 一 个 有 序 的 大 数组 接 一 个 小 数组 ; 

口 数组 中 只 有 几 个 元 素 的 位 置 不 正确 。 

搬入 排序 对 这 样 的 数组 很 有 效 ， 而 选择 排序 则 不 然 。 事 实 上 ， 当 倒置 的 数量 很 少时 ， 插 入 排序 
很 可 能 比 本 章 中 的 其 他 任何 算法 都 要 快 。 


命题 C。 插 入 排序 需要 的 交换 操作 和 数组 中 倒置 的 数量 相同 ， 需 要 的 比较 次 数 大 于 等 于 倒置 的 
数量 ， 小 于 等 于 倒置 的 数量 加 上 数组 的 大 小 再 减 一 。 


证 明 。 每 次 交换 都 改变 了 两 个 顺序 颠倒 的 元 素 的 位 置 ， 相 当 于 减少 了 一 对 倒置 ， 当 倒置 数量 为 
0 时 ， 排 序 就 完成 了 。 每 次 交换 都 对 应 着 一 次 比较 ， 且 工 到 N-1 之 间 的 每 个 1 都 可 能 需要 一 次 
额外 的 比较 (在 a[i] 没有 达到 数组 的 左 端 时 ) 。 


要 大 幅 提 高 插入 排序 的 速度 并 不 难 ， 只 需要 在 内 循环 中 将 较 大 的 元 素 都 向 右 移动 而 不 总 是 交换 
两 个 元 素 ( 这 样 访问 数组 的 次 数 就 能 减 半 ) 。 我 们 把 这 项 改进 留 做 一 个 练习 ( 请 见 练习 2.1.25 ) 。 
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总 的 来 说 ， 插 入 排序 对 于 部 分 有 序 的 数 1 


组 十 分 高 效 , 也 很 适合 小 规模 数组 。 这 很 重要 ， 

因为 这 些 类 更 的 数组 在 实际 应 用 中 经 常 出 现 ， 

而 且 它 们 也 是 高 级 排序 算法 的 中 间 过 程 。 我 1 

们 会 在 学 习 高 级 排序 算法 时 再 次 接触 到 插入 il 

排序 。 ml 

2.1.4 “排序 算法 的 可 视 化 
在 本 章 中 我 们 会 使 用 一 种 简单 的 图 示 来 帮 mll 


助 我 们 说 明 排序 算法 的 性 质 。 我 们 没有 使 用 字 
母 、 数 字 或 是 单词 这 样 的 键 值 来 跟踪 排序 的 进 
程 ， 而 使 用 了 棒状 图 ， 并 以 它们 的 高 矮 来 排序 








过 利家 为 的 好处 他 人 过 和 一 -lll lh 
如 图 2.1.1 所 示 ， 插 入 排序 不 会 访问 索引 EL Ee I 
右 侧 的 元 素 ， 而 选择 排序 不 会 访问 索引 左 侧 的 I 全 与 了 比 较 nh 
元 素 。 另外， 在 这 种 可 视 化 的 轨迹 图 中 可 以 看 ll a 
到 ， 因 为 插入 排序 不 会 移动 比 被 插入 的 元 素 更 | 站 
小 的 元 素 ， 它 所 需 的 比较 次 数 平均 只 有 选择 排 
pi ml ll 
用 我 们 的 StdDraw 库 而 出 一 张 可 视 轨迹 in 1 
图 并 不 比 据 踪 一 次 算法 的 运行 轨迹 难 多 少 。 将 拓 和 和 


Double 值 排序 ， 并 在 适当 的 时 候 指示 算法 调 。 图 2.1.1 初级 排序 算法 的 可 视 轨迹 图 ( 另 见 彩 插 ) 
用 show() 方法 (和 追踪 算法 的 轨迹 时 一 样 ) ， 

然后 开发 一 个 使 用 StdDraw 来 绘制 棒状 图 而 不 是 打印 结果 的 show( 方法 。 最 复杂 的 部 分 是 设置 y 
轴 的 比例 以 使 轨迹 的 线条 符合 预期 的 顺序 。 请 通过 练习 2.1.18 来 更 好 地 理解 可 视 轨迹 图 的 价值 和 
使 用 。 

将 轨迹 变 成 动画 ， 理 解 起 来 就 更 加 简单 ， 这 样 可 以 看 到 动态 演化 到 有 序 状态 的 过 程 。 产 生 轨 迹 
动画 的 过 程 本 质 上 和 上 一 段 所 描述 的 相同 ， 但 不 需要 担心 y 轴 的 问题 (只 需 每 次 氛 除 窗口 中 的 内 容 
并 重 绘 棒状 图 即 可 )。 尽 管 我 们 无 法 在 书 中 展现 这 些 动画 ,它们 对 于 理解 算法 的 工作 原理 也 很 有 帮助 ， 
你 能 通过 练习 2.1.17 体会 这 一 点 。 252 


2.1.5 “比较 两 种 排序 算法 2 
现在 我 们 已 经 实现 了 两 种 排序 算法 ， 我们 很 自然 地 想 知道 选择 排序 (算法 2.1 ) 和 插入 排序 ( 算 
法 2.2 ) 哪 种 更 快 。 这 个 问题 在 算法 的 过 程 中 会 反复 出 现 ， 也 是 本 书 的 重点 之 一 。 我 们 已 经 在 
第 1 章 中 讨论 过 一 些 基 本 的 概念 ， 这 里 我 们 第 一 次 用 实践 说 明 我 们 解决 这 个 问题 的 办 法 。 一 般 来 说 ， 
根据 1.4 节 所 介绍 的 方法 ， 我 们 将 通过 以 下 步 双 比较 两 个 算法 : 
口 实现 并 调试 它们 ; 
口 分 析 它 们 的 基本 性 质 ; 
口 对 它们 的 相对 性 能 作出 猜想 ; 
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口 用 实验 验证 我 们 的 猜想 。 

这 些 步骤 都 是 经 过 时 间 检 验 的 科学 方法 ， 只 是 现在 是 运用 在 算法 研究 之 上 。 

现在 ,算法 2.1 和 算法 2.2 表示 已 经 实现 了 第 一 步 ， 命 题 A、 命 题 B 和 命题 C 组 成 了 第 二 步 ， 
下 面 的 性 质 D 将 是 第 三 步 ， 之 后 “比较 两 种 排序 算法 ”的 SortCompare 类 将 会 完成 第 四 步 。 这 些 
行为 都 是 紧密 相关 的 。 

在 这 些 简洁 的 步骤 之 下 是 大 量 的 算法 实现 、 调 试 分 析 和 测试 工作 。 每 个 程序 员 都 知道 只 有 经 过 
长 期 的 调试 和 改进 才能 得 到 这 样 的 代码 ， 每 个 数学 家 都 知道 正确 分 析 的 难度 ， 每 个 科学 家 也 都 知道 
从 提出 猜想 到 设计 并 执行 实验 来 验证 它们 是 多 么 费心 。 只 有 研究 那些 最 重要 的 算法 的 专家 才 会 经 历 
完整 的 研究 过 程 ， 但 每 个 使 用 算法 的 程序 员 都 应 该 了 解 算法 的 性 能 特性 背后 的 科学 过 程 。 

实现 了 算法 之 后 ， 下 一 步 我 们 需要 确定 一 个 适当 的 输入 模型 。 对 于 排序 ， 命 题 A、 命 题 B 和 命 
题 C 用 到 的 自然 输入 模型 假设 数组 中 的 元 素 随 机 排序 ， 且 主键 值 不 会 重复 。 对 于 有 很 多 重复 主键 的 
应 用 来 说 ， 我 们 需要 一 个 更 加 复杂 的 模型 。 

如 何 估计 插入 排序 和 选择 排序 在 随机 排序 数组 下 的 性 能 呢 ? 通过 算法 2.1 和 算法 2.2 以 及 命题 
A、 命 题 B 和 命题 C 可 以 发 现 ， 对 于 随机 排序 数组 ， 两 者 的 运行 时 间 都 是 平方 级 别 的 。 也 就 是 说 ， 
在 这 种 输入 下 插入 排序 的 运行 时 间 和 N 乘 以 一 个 小 常数 成 正比 ， 选 择 排序 的 运行 时 间 和 下 乘 以 另 

-个 小 常数 成 比例 。 这 两 个 常数 的 值 取决 于 所 使 用 的 计算 机 中 比较 和 交换 元 素 的 成 本 。 对 于 许多 数 
据 类 型 和 一 般 的 计算 机 ， 可 以 假设 这 些 成 本 是 相近 的 ( 但 我 们 也 会 看 到 一 些 大 不 相同 的 例外 ) 。 因 
此 我 们 直接 得 出 了 以 下 猜想 。 


性 质 D。 对 于 随机 排序 的 无 重复 主键 的 数组 ， 插 入 排序 和 选择 排序 的 运行 时 间 是 平方 级 别 的 ， 
两 者 之 比 应 该 是 一 个 较 小 的 常数 。 


例证 。 这 个 结论 在 过 去 的 半 个 世纪 中 已 经 在 许多 不 同类 型 的 计算 机 上 经 过 了 验证 。 在 1980 年 
本 书 第 1 版 完成 之 时 插入 排序 就 比 选 择 排序 快 一 倍 ， 现 在 仍然 是 这 样 ， 尽 管 那 时 这 些 算法 将 10 
万 条 数据 排序 需要 几 个 小 时 而 现在 只 需要 几 秒 钟 。 在 你 的 计算 机 上 插入 排序 也 比 选择 排序 快 一 
些 吗 ? 可 以 通过 SortCompare 类 来 检测 。 它 会 使 用 由 命令 行 参数 指定 的 排序 算法 名 称 所 对 应 的 
sort() 方法 进行 指定 次 数 的 实验 (将 指定 大 小 的 数组 排序 ) ， 并 打印 出 所 现 察 到 的 各 种 算法 的 
运行 时 间 的 比例 。 


为 了 证 明 这 一 点 ， 我 们 用 


sortCompare ( 见 “ 比 较 两 种 排 We static double time(String alg, Comparable[] a) 


序 算法 ”) 来 做 几 次 实验 。 我 们 Stopwatch timer = new StopwatchO; 

、 if (alg.equals("Insertion")) Insertion.sort(a); 

使 用 Stopwatch 来 计时 ， 右 侧 的 if (alg.equals("Selection")) Selection.sort(a); 
time() 函数 的 任务 是 调用 本 章 中 本 eit el She11.sortCa); 
if (alg.equals("Merge")) Merge.sort(aDi 
的 几 种 简单 排序 算法 。 if C10 eduals CQ)) lel te 
随机 数组 的 输入 模型 由 if (alg.equals("Heap")) Heap. sort(a); 


it re 类 中 的 tj 出 return timer.elapsedTime(); 


InputO) 方法 实现 。 这 个 方法 会 
生成 随机 的 Double 值 , 将 它们 排 针对 给 定 输入 , 为 本 章 中 的 一 种 排序 算法 计时 
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序 , 并 返回 指定 次 测试 的 总 时 间 。 使 用 0.0 至 1.0 之 间 的 随机 Double 值 比 使 用 类 似 于 StdRandom 
shuffle() 的 库 函 数 更 简单 有 效 ， 因 为 这 样 几乎 不 可 能 产生 相等 的 主键 值 ( 请 见 练习 2.5.31 ) 。 如 
第 1 章 中 所 讨论 的 ， 用 命令 行 参数 指定 重复 次 数 的 好 处 是 能 够 运行 大 量 的 测试 ( 测试 次 数 越 多 ， 每 
遍 测 试 所 需 的 平均 时 间 就 越 接近 于 真实 的 平均 数据 ) 并 且 能 够 减 小 系统 本 身 的 影响 。 你 应 该 在 自己 
的 计算 机 上 用 SortCompare 进行 实验 ， 来 了 解 关 于 择 入 排序 和 选择 排序 的 结论 是 否 成 立 。 


比较 两 种 排序 算法 





public class SortCompare 

{ 
public static double time(String alg, Double[] a) 
人 /* 请 见 前 面 的 正文 */ 了 


public static double timeRandomInput(String alg, int N, int T) 
{ // 使 用 算法 1 将 T 个 长 度 为 N 的 数组 排序 
double total = 0.0; 
Double[] a = new Double[N]; 
for (int t = 0; t < T; t++) 
{ // 进行 一 次 测试 (生成 一 个 数组 并 排序 ) 
for Cint 1 = 0; i < N; i++) 
a[i] = StdRandom.uniform(); 
total += time(alg, a); 
} 
return total; 


} 


public static void main(String[] args) 

{ 
String algl = args[0]; 
String alg2 = args[1]; 
int N = Integer.parseInt(args[2]); 
int T = Integer.parseInt(args[3]); 
double tl = timeRandomInput(alg1，N，T); // 算法 1 的 总 时 间 
double t2 = timeRandomInput(a192，N，T); // 算法 2 的 总 时 间 
StdOut.printf( “For %d random Doubles\n = %s is™ , N, algl); 
StdOut.printf( “ %.1f times faster than %s\n” , t2/t1l, alg2); 

} 

} 


这 个 用 例会 运行 由 前 两 个 命令 行 参 数 指定 的 排序 算法 ， 对 长 度 为 N ( 由 第 三 个 参数 指定 ) 的 Double 
型 随机 数组 进行 排序 ， 元 素 值 均 在 0.0 到 1.0 之 间 , 重复 T 次 ( 由 第 四 个 参数 指定 ) ， 然 后 输出 总 运行 时 
间 的 比例 。 


% java SortCompare Insertion Selection 1000 100 
For 1000 random Doubles 
Insertion is 1.7 times faster than Selection 255 
1 
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我 们 故意 将 性 质 D 描述 得 不 够 明确 一 一 没有 说 明 那 个 小 常量 的 值 ， 以 及 对 比较 和 交换 的 成 本 相 
近 的 假设 ， 这 样 性 质 D 才能 广泛 适用 于 各 种 情况 。 可 能 的 话 ， 我 们 会 尽量 用 这 样 的 语言 来 抓 住 我 们 
所 研究 的 每 个 算法 的 性 能 的 本 质 。 如 第 1 章 中 讨论 的 那样 ， 我 们 提出 的 每 个 性 质 都 需要 在 特定 的 场 
景 中 进行 科学 测试 ， 也 许 还 需要 用 一 个 基于 相关 命题 (数学 定理 ) 的 猜想 进行 补充 。 
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对 于 实际 应 用 ， 还 有 一 个 很 重要 的 步骤 ， 那 就 是 用 实际 教 据 在 实验 中 验证 我 们 的 猜想 。 我 们 会 
在 2.5 节 和 练习 中 再 考虑 这 一 点 。 在 这 种 情况 下 ， 当 主键 有 重复 或 是 排列 不 随机 ,性质 D 就 可 能 会 
不 成 立 。 可 以 使 用 StdRandom.shuffle() 来 将 一 个 数组 打 乱 ， 但 有 大 量 重复 主键 的 情况 则 需要 更 
加 细致 的 分 析 。 

我 们 对 算法 分 析 的 讨论 是 抛砖引玉 ， 而 非 盖 棺 定论 。 如 果 你 想到 了 关于 算法 性 能 的 其 他 问题 ， 
可 以 用 SortCompare 等 工具 来 研究 它 ， 后 面 的 练习 为 你 提供 了 许多 机 会 。 

插入 排序 和 选择 排序 的 性 能 比较 就 讨论 到 这 里 ， 还 存在 许多 比 它们 快 成 千 上 万 倍 的 算法 ， 我 们 
对 此 会 更 感 兴趣 。 当 然 ， 仍 然 有 必要 学 习 这 些 初级 算法 ， 因 为 

口 它们 帮助 我 们 建立 了 一 些 基本 的 规则 ; 

口 它们 展示 了 一 些 性 能 基准 ; 

口 在 某 些 特殊 情况 下 它们 也 是 很 好 的 选择 ; 

口 它们 是 开发 更 强大 的 排序 算法 的 基石 。 

因此 ， 不 止 是 排序 ， 对 于 本 书 中 的 每 个 问题 我 们 都 会 沿用 这 种 方式 ， 首 先 学 习 的 就 是 最 初级 的 
相关 算法 。SortCompare 这 样 的 程序 对 于 这 种 渐进 式 的 算法 研究 十 分 重要 。 每 一 步 ， 我 们 都 能 用 这 
类 程序 来 了 解 新 的 或 是 改进 后 的 算法 的 性 能 是 否 产生 了 预期 的 进步 


2.1.6 希 尔 排序 

为 了 展示 初级 排序 算法 性 质 的 价值 ， 接 下 来 我 们 将 学 习 一 种 基于 插入 排序 的 快速 的 排序 算法 。 
对 于 大 规模 乱 序数 组 插入 排序 很 慢 ， 因 为 它 只 会 交换 相 邻 的 元 素 ， 因 此 元 素 只 能 一 点 一 点 地 从 数组 
的 一 端 移动 到 另 一 端 。 例 如 ， 如 果 主 键 最 小 的 元 素 正好 在 数组 的 尽头 ， 要 将 它 挪 到 正确 的 位 置 就 需 
要 NI 次 移动 。 硕 尔 排序 为 了 加 快速 度 简单 地 改进 了 插入 排序 ， 交 换 不 相 邻 的 元 素 以 对 数组 的 局 部 
进行 排序 ， 并 最 终 用 插入 排序 将 局 部 有 序 的 数组 排序 。 

希 尔 排序 的 思想 是 使 数组 中 任意 间隔 为 h 的 元 素 都 是 有 序 的 。 这 样 的 数组 被 称 为 h 有 序数 组 。 换 
句 话 说， 一 个 h 有 序 教 组 就 是 h 个 互相 独立 的 有 序数 组 编织 在 一 起 组 成 的 一 个 数组 ( 见 图 2.1.2) 。 
在 进行 排序 时 ， 如 果 h 很 大 ， 我 们 就 能 将 元 素 移动 到 很 远 的 地 方 ， 为 实现 更 小 的 h 有 序 创造 方便 。 用 
这 种 方式 ， 对 于 任意 以 1 结尾 的 h 序列， 我 们 都 能 够 将 数组 排序 。 这 就 是 希 尔 排序 。 算 法 2.3 的 实现 
使 用 了 序列 2 ( 3-1) ， 从 N3 开始 递减 至 1。 我 们 把 这 个 序列 称 为 递增 序列 。 算 法 23 实时 计算 了 
它 的 递增 序列 ， 另 一 种 方式 是 将 递增 序列 存储 在 一 个 数组 中 。 
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图 2.1.2 一 个 h 有 序 教 组 即 一 个 由 h 个 有 序 子 数组 组 成 的 数组 


实现 希 尔 排序 的 一 种 方法 是 对 于 每 个 h， 用 插入 排序 将 h 个 子 数 组 独立 地 排序 。 但 因为 子 数组 
是 相互 独立 的 ， 一 个 更 简单 的 方法 是 在 h- 子 数组 中 将 每 个 元 素 交 换 到 比 它 大 的 元 素 之 前 去 (将 比 它 
大 的 元 素 向 右 移动 一 格 ) 。 只 需要 在 插入 排序 的 代码 中 将 移动 元 素 的 距离 由 1 改 为 h 即 可 。 这 样 ， 希 
尔 排序 的 实现 就 转化 为 了 一 个 类 似 于 插入 排序 但 使 用 不 同 增 量 的 过 程 。 

希 尔 排序 更 高 效 的 原因 是 它 权 衡 了 子 数组 的 规模 和 有 序 性 。 排 序 之 初 ， 各 个 子 数组 都 很 短 ， 排 . 
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序 之 后 子 数 组 都 是 部 分 有 序 的 ， 这 两 种 情况 都 很 适合 插入 排序 。 子 数组 部 分 有 序 的 程度 取决 于 递增 
序列 的 选择 。 透 彻 理解 希 尔 排序 的 性 能 至 今 仍然 是 一 项 挑战 。 实 际 上 ， 算 法 2.3 是 我 们 唯一 无 法 准 
确 描述 其 对 于 乱 序 的 数组 的 性 能 特征 的 排序 方法 。 


算法 2.3 希 尔 排序 


public class She11 
{ 
public static void sort(Comparable[] a) 
{。// 将 a[] 按 开 序 排列 
int N = a.length; 
int h = 1; 
while (h < N/3) h = 3*h + 1; // 1, 4, 13, 40, 121, 364, 1093, ... 
while Ch >= 了 
{ // 将 数组 变 为 h 有 序 
for (Gint 1 = h; 1 < N; i++) 
{ // 将 a[i] 桥 入 到 a[i-h]，a[i-2*h]，a[i-3*h]..。 之 中 
for (int j = 1; j >= h && lessCa[j], a[j-h]); j -= h) 
exchCa, j, j-h); 





} 
h = h/3; 
} 
} 


// less()、 exch()、isSorted() 和 main() 方 法 见 “ 排 序 算法 类 模板 ” 


} 
如 果 我 们 在 插入 排 序 (算法 2.2) 中 加 入 一 个 外 循环 来 将 h 按照 递增 序列 递减 ， 我 们 就 能 得 到 这 个 
简洁 的 希 尔 排序 。 增 幅 h 的 初始 值 是 数组 长 度 乘 以 一 个 常数 因子 ， 最 小 为 1。 


% java SortCompare She11 Insertion 100000 100 
For 100000 random Doubles 
She11 is 600 times faster than lnsertion 





输入 SHELLSORTEXAMPLE 
l3-sortp HELL S 0 R T E X A M S L 上 E 
oo 芷 EA EPSGt TS 
[和 
希 尔 排序 的 轨迹 “每 遍 排 序 后 的 数组 内 容 ) 鸯 











如 何 选择 递增 序列 呢 ? 要 回答 这 个 问题 并 不 简单 。 算 法 的 性 能 不 仅 取决 于 h， 还 取决 于 h 之 间 
的 数学 性 质 ， 比 如 它们 的 公 因子 等 。 有 很 多 论文 研究 了 各 种 不 同 的 递增 序列 ， 但 都 无 法 证 明 某 个 序 
列 是 “最 好 的 ”。 算 法 2.3 中 递增 序列 的 计算 和 使 用 都 很 简单 ， 和 复杂 递增 序列 的 性 能 接近 。 但 可 
以 证 明 复 杂 的 序列 在 最 坏 情况 下 的 性 能 要 好 于 我 们 所 使 用 的 递增 序列 。 更 加 优秀 的 递增 序列 有 待 我 
们 去 发 现 。 

和 选择 排序 以 及 插入 排序 形成 对 比 的 是 ， 希 尔 排序 也 可 以 用 于 大 型 数组 。 它 对 任意 排序 (不 一 定 
是 随机 的 ) 的 数组 表现 也 很 好 。 实 际 上 ， 对 于 一 个 给 定 的 递增 序列 ， 构 造 一 个 使 希 尔 排序 运行 缓慢 的 
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数组 并 不 容易 。 希 尔 排序 的 轨迹 如 图 2.1.3 所 示 ， 可 视 轨迹 如 图 2.1.4 所 示 。 


输入 $A 


13-sort p 
4-sort 上 P 
S 
0 
R 
b 
E H § 
x 
A 于 R 
M F 
L 0 
E 上 L 
1-sort E L 
"二 
AEEL 
M 
HL NM 
L 
| i 止 :, 抽 
» 
Ss 
OPFrs 
LMOPS 


R 
结果 A 


T 
S 


3 
S 


图 2.1.3 希 尔 排序 的 详细 轨迹 (各 种 插入 ) 


S 
| 
[3 


通过 SortCompare 可 以 看 到 , 希 尔 排序 比 插入 排序 和 选择 排序 要 快 得 多 ， 并且 数 组 越 大 ， 优 
势 越 大 。 在 继续 学 习 之 前 ， 请 在 你 的 计算 机 上 用 SortCompare 比较 一 下 希 尔 排 序 和 插入 排序 以 及 
选择 排序 的 性 能 ， 数 组 的 大 小 按照 2 的 宕 次 递增 ( 见 练习 2.1.27 ) 。 你 会 看 到 希 尔 排序 能 够 解决 一 
些 初 级 排序 算法 无 能 为 力 的 问题 。 这 个 例子 是 我 们 第 一 次 用 实际 应 用 说 明 一 个 贯穿 本 书 的 重要 理念 : 
通过 提升 速度 来 解决 其 他 方式 无 法 解决 的 问题 是 研究 算法 的 设计 和 性 能 的 主要 原因 之 一 。 

研究 希 尔 排序 性 能 需要 的 数学 论证 超出 了 本 书 范围 。 如 果 你 不 相信 ， 可 以 从 证 明 下 面 这 一 点 开 
始 : 当 一 个 “h 有 序 ” 的 数组 按照 增幅 k 排序 之 后 ， 它 仍然 是 “h 有 序 ” 的 。 至 于 算法 2.3 的 性 能 ， 
目前 最 重要 的 结论 是 它 的 运行 时 间 达 不 到 平方 级 别 。 例 如 ， 已 知 在 最 坏 的 情况 下 算法 2.3 的 比较 次 数 
和 Me 成 正比 。 有 意思 的 是 ， 由 插入 排序 到 希 尔 排序 ， 一 个 小 小 的 改变 就 突破 了 平方 级 别 的 运行 时 间 
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的 屏障 。 这 正 是 许多 算法 设计 问题 想 要 达到 的 目标 


lia hy er 


40-sorted 


lu antl 


13-sorted 


hhh PP 


4-sorted 












图 2.1.4 和 希 尔 排 序 的 可 视 轨迹 
在 输入 随机 排序 数组 的 情况 下 ， 我 们 在 数学 上 还 不 知道 希 尔 排序 所 需要 的 平均 比较 次 数 。 人 们 
发 明了 很 多 递增 序列 来 渐进 式 地 改进 最 坏 情况 下 所 需 的 比较 次 数 (Ne, N%, NS.… ) ， 但 这 些 结论 
大 多 只 有 学 术 意义 ， 因 为 对 于 实际 应 用 中 的 N 来 说 它们 的 递增 序列 的 生成 函数 (以 及 与 Y 乘 以 一 
个 常数 因子 ) 之 间 的 区 别 并 不 明显 
在 实际 应 用 中 ， 使 用 算法 23 中 的 递增 序列 基本 就 足够 了 (或 者 是 本 节 最 后 的 练习 中 提供 的 一 个 递 
增 序列 ， 它 可 能 可 以 将 性 能 改进 20% ~ 40% ) 。 另 外 ， 很 容易 就 能 验证 下 面 这 个 猜想 








性 质 E。 使 用 递增 序列 1, 4, 13, 40, 121, 364… 的 希 尔 排 序 所 需 的 比较 次 数 不 会 超出 入 的 若干 倍 
乘 以 递增 序列 的 长 度 。 


例证 。 记 录 算 法 2.3 中 比较 的 数量 并 将 其 除 以 使 用 的 序列 长 度 是 一 道 简单 的 练习 ( 请 见 练习 
2.1.12) 。 大 量 的 实验 证 明 平均 每 个 增幅 所 带 来 的 比较 次 数 约 为 NS， 但 只 有 在 NN 很 大 的 时 候 这 
个 增长 幅度 才 会 变 得 明显 。 这 个 性 质 似乎 也 和 输入 模型 无 关 。 


有 经 验 的 程序 员 有 时 会 选择 希 尔 排序 ， 因 为 对 于 中 等 大 小 的 数组 它 的 运行 时 间 是 可 以 接受 的 
它 的 代码 量 很 小 ， 且 不 需要 使 用 额外 的 内 存 空间 。 在 下 面 的 几 节 中 我 们 会 看 到 更 加 高 效 的 算法 ， 但 
除了 对 于 很 大 的 N， 它 们 可 能 只 会 比 希 尔 排序 快 两 倍 ( 可 能 还 达 不 到 ) ， 而 且 更 复杂 。 如 果 你 需要 
解决 一 个 排序 问题 而 又 没有 系统 排序 函数 可 用 ( 例如 直接 接触 硬件 或 是 运行 于 嵌入 式 系统 中 的 代 
码 ) ， 可 以 先 用 希 尔 排序 ， 然 后 再 考虑 是 否 值得 将 它 蔡 换 为 更 加 复杂 的 排序 算法 。 262 
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图 答 帮 


问 
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排序 看 起 来 是 个 很 简单 的 问题 ， 我 们 用 计算 机 不 是 可 以 做 很 多 更 有 意思 的 事情 吗 ? 

也 许 吧 ， 但 快速 的 排序 算法 才 使 得 那些 更 有 意思 的 事情 成 为 可 能 。 在 2.5 节 以 及 全 书 的 其 他 章节 你 
都 可 以 找到 很 多 这 样 的 例子 。 排 序 算法 今天 仍然 值得 我 们 学 习 是 因为 它 易于 理解 ， 你 能 从 中 领会 到 
许多 精妙 之 处 。 

为 什么 有 这 么 多 排序 算法 ? 

原因 之 一 是 许多 排序 算法 的 性 能 都 和 输入 模型 有 很 大 的 关系 ， 因 此 不 同 的 算法 适用 于 不 同 应 用 场景 中 的 
不 同 输入 。 例 如 ， 对 于 部 分 有 序 和 小 规模 的 数组 应 该 选择 插入 排序 。 其 他 限制 条 件 ， 例 如 空间 和 重复 的 
主键 ， 也 都 是 需要 考虑 的 因素 。 我 们 将 会 在 2.5 节 中 再 次 讨论 这 个 问题 。 

为 什么 要 使 用 1ess() 和 exch() 这 些 不 起 眼 的 辅助 函数 ? 

它们 抽象 了 所 有 排序 算法 都 会 用 到 的 共同 操作 ， 这 种 抽象 使 得 代码 更 便于 理解 。 而 且 它们 增强 了 代 
码 的 可 移植 性 。 例 如 ， 算 法 2.1 和 算法 2.2 中 的 大 部 分 代码 在 其 他 几 种 编程 语言 中 也 是 可 以 执行 的 。 
即使 是 在 Java 中 ， 只 要 将 less 实现 为 v < w， 这 些 算法 的 代码 就 可 以 将 不 支持 Comparable 接 
口 的 基本 数据 类 型 排序 了 。 

当 我 运行 SortCompare 时 ， 每 次 的 结果 都 不 一 样 (而 且 和 书 上 的 也 不 相同 ) ， 为 什么 ? 

对 于 初学 者 ， 你 的 计算 机 和 我 们 的 计算 机 不 同 ， 操 作 系统 、Java 运行 时 环境 等 都 不 一 样 。 这 些 不 同 
可 能 导致 算 法 代码 生成 的 机 器 码 不 同 。 每 次 运行 所 得 结果 不 同 的 原因 可 能 在 于 当时 运行 的 其 他 程序 
或 是 很 多 其 他 原因 。 大 量 的 重复 实验 可 以 淡化 这 种 干扰 ， 我 们 的 经 验 是 现 如 今 算法 性 能 的 微小 差异 
很 难 观察 。 这 就 是 我 们 要 关注 较 大 差异 的 原 | 





图 练 


2.1.1 按照 算法 2.1 所 示 轨 迹 的 格式 给 出 选择 排序 是 如 何 将 数组 E AS YQUESTION 排序 的 。 
2.1.2 在 选择 排序 中 ， 一 个 元 素 最 多 可 能 会 被 交换 多 少 次 ? 平均 可 能 会 被 交换 多 少 次 ? 
2.1.3 构造 一 个 含有 N 个 元 素 的 数组 ， 使 选择 排序 (算法 2.1 ) 运行 过 程 中 a[j] < a[min]) (由 此 min 


会 不 断 更 新 ) 成 功 的 次 数 最 大 。 


2.1.4 按照 算法 2.2 所 示 轨迹 的 格式 给 出 插入 排序 是 如 何 将 数组 EA S Y Q U E S T ION 排序 的 。 
2.1.5 构造 一 个 含有 N 个 元 素 的 数组 ， 使 插入 排序 (算法 2.2 ) 运行 过 程 中 内 循环 ( for ) 的 两 个 判断 结 


果 总 是 假 。 


2.1.6 在 所 有 的 主键 都 相同 时 ， 选 择 排序 和 插入 排序 谁 更 快 ? 
2.1.7 ”对 于 逆序 数组 ， 选 择 排序 和 插入 排序 谁 更 快 ? 
2.1.8 ”假设 元 素 只 可 能 有 三 种 值 ， 使 用 插入 排序 处 理 这 样 一 个 随机 数组 的 运行 时 间 是 线性 的 还 是 平方 级 


别 的 ? 或 是 介 于 两 者 之 间 ? 


2.1.9 按照 算法 2.3 所 示 轨 迹 的 格式 给 出 希 尔 排序 是 如 何 将 数组 EA SYSHELLSORT QUE 


STION 排序 的 。 


2.1.10 在 希 尔 排序 中 为 什么 在 实现 h 有 序 时 不 使 用 选择 排序 ? 
2.1.11 将 希 尔 排序 中 实时 计算 递增 序列 改 为 预先 计算 并 存储 在 一 个 数组 中 。 
2.1.12 令 希 尔 排 序 打印 出 递增 序列 的 每 个 元 素 所 带 来 的 比较 次 数 和 数组 大 小 的 比值 。 编 写 一 个 测试 用 


例 对 随机 Double 数组 进行 希 尔 排序 ， 验 证 该 值 是 一 个 小 常数 ， 数 组 大 小 按照 10 的 宕 次 递增 ， 
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不 小 于 100。 264 











图 提高 下 


2.1.13 


2.1.14 


2.1.15 


2.1.16 


2.1.17 


2.1.18 


2.1.19 


2.1.20 
2.1.21 


2.1.22 


纸牌 排序 。 说 说 你 会 如 何 将 一 副 扑克 牌 按 花色 排序 ( 花色 顺序 是 黑 桃 、 红 桃 、 梅 花 和 方 片 ) ， 
限制 条 件 是 所 有 有 牌 都 是 背面 朝 上 排 成 一 列 ， 而 你 一 次 只 能 翻 看 两 张 牌 或 者 交换 两 张 牌 ( 保持 背 
面 朝 上 ) 。 

出 列 排序 。 说 说 你 会 如 何 将 一 副 扑 克 牌 排序 ， 限 制 条 件 是 只 能 查看 最 上 面 的 两 张 牌 ， 交 换 最 上 
面 的 两 张 牌 ,或 是 将 最 上 面 的 一 张 牌 放 到 这 操 牌 的 最 下 面 。 

昂 员 的 交换 。 一 家 货运 公司 的 一 位 职员 得 到 了 一 项 任务 , 需要 将 若干 大 货 箱 按照 发 货 时 间 摆 放 。 
比较 发 货 时 间 很 容易 对 照 标签 即 可 ) ， 但 将 两 个 货 箱 交 换 位 置 则 很 困难 ( 移动 麻烦 ) 。 仓 库 
已 经 快 满 了 ， 只 有 一 个 空闲 的 仓位 。 这 位 职员 应 该 使 用 哪 种 排序 算法 呢 ? 

验证 。 编 写 一 个 check0 方法 ， 调 用 sortQ 对 任意 数组 排序 。 如 果 排序 成 功 而 且 数组 中 的 所 
有 对 象 均 没有 被 修改 则 返回 true， 否 则 返回 false。 不 要 假设 sort() 只 能 通过 exch() 来 移动 
数据 ， 可 以 信任 并 使 用 Arrays.sortO。 

动画 。 修 改 插入 排序 和 选择 排序 的 代码 ， 使 之 将 数组 内 容 绘制 成 正文 中 所 示 的 棒状 图 。 在 每 一 
轮 排 序 后 重 绘图 片 来 产生 动画 效果 ， 并 以 一 张 “ 有 序 ” 的 图 片 作 为 结束 ， 即 所 有 圆 棒 均 已 按照 
高 度 有 序 排列 。 提 示 : 使 用 类 似 于 正文 中 的 用 例 来 随机 生成 Dbouble 值 ， 在 排序 代码 的 适当 位 置 
调用 show() 方法 ， 并 在 show() 方法 中 清理 画布 并 绘制 棒状 图 。 

可 视 轨迹 。 修 改 你 为 上 一 题 给 出 的 解答 ， 为 插入 排序 和 选择 排序 生成 和 正文 中 类 似 的 可 视 轨 迹 。 
提示 : 使 用 setYscale() 函数 是 一 个 明智 的 选择 。 附 加 题 : 添加 必要 的 代码 ， 与 正文 中 的 图 片 
一 样 用 红色 和 灰色 强调 不 同 角色 的 元 素 。 

项 尔 排序 的 最 坏 情况 。 用 1 到 100 构造 一 个 含有 100 个 元 素 的 数组 并 用 希 尔 排 序 和 递增 序列 1 4 
13 40 对 其 排序 ， 使 比较 的 次 数 尽 可 能 多 。 

项 尔 排序 的 最 好 情况 。 最 好 情况 是 什么 ? 证 明 你 的 结论 。 265 
可 比较 的 交易 。 用 我 们 的 Date 类 (请 见 2.1.1.4 节 ) 作为 模板 扩展 你 的 Transaction 类 (请 
见 练习 1.2.13 ) ， 实 现 Comparable 接口 ， 使 交易 能 够 按照 金额 排序 。 

解答 : 

i class Transaction implements Comparable<Transaction> 




















private final double amount; 
public int compareTo(Transaction that) 


if (this.amount > that.amount) return +1; 

if (this.amount < that.amount) return -1; 

return 0; 

了 

放生 
事务 排序 测试 用 例 。 编 写 一 个 SortTransaction 类 ， 在 静态 方法 main() 中 从 标准 输入 读 取 一 
系列 事务 ， 将 它们 排序 并 在 标准 输出 中 打印 结果 请 见 练习 1.3.17 ) 。 
解答 : 
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public class SortTransactions 


public static Transaction[] readTransactions() 
人 // 请 见 练习 1.3.17 了 
public static void main(String[] args) 


Transaction[] transactions = readTransactions(); 
She11.sort(transactions); 
for (Transaction t : transactions) 
Std0ut.println(t); 
} 


} 


图 实验 十 
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2.1.23 


2.1.24 


2.1.25 


2.1.26 


2.1.27 


2.1.28 


2.1.29 


2.1.30 


2.1.31 


2.1.32 


2.1.33 


纸牌 排序 。 请 几 位 朋友 分 别 将 一 副 扑克 牌 排序 ( 见 练习 2.1.13 ) 。 仔 细 观 察 并 记录 他 们 所 使 用 的 
方法 。 

插入 排序 的 哨兵 。 在 插入 排序 的 实现 中 先 找 出 最 小 的 元 素 并 将 其 置 于 数组 的 最 左边 ， 这 样 就 能 
去 掉 内 循环 的 判断 条 件 j>0。 使 用 SortCompare 来 评估 这 种 做 法 的 效果 。 注 意 : 这 是 一 种 常见 
的 规避 边界 测试 的 方法 ， 能 够 省 略 判 断 条 件 的 元 素 通常 被 称 为 哨兵 。 

不 需要 交换 的 插入 排序 。 在 插入 排序 的 实现 中 使 较 大 元 素 右 移 一 位 只 需要 访问 一 次 数组 ( 而 不 
用 使 用 exch() ) 。 使 用 SortCompare 来 评估 这 种 做 法 的 效果 。 

原始 数据 类 型 。 编 写 一 个 能 够 处 理 int 值 的 插入 排序 的 新 版 本 , 比较 它 和 正文 中 所 给 出 的 实现 ( 能 
够 隐 式 地 用 自动 装 箱 和 拆 箱 转换 Integer 值 并 排序 ) 的 性 能 。 

希 尔 排序 的 用 时 是 次 平方 级 的 。 在 你 的 计算 机 上 用 SortCompare 比较 希 尔 排序 和 插入 排序 以 及 
选择 排序 。 测 试 数组 的 大 小 按照 2 的 赛 次 递增 ， 从 128 开始 。 

相等 的 主键 。 对 于 主键 仅 可 能 取 两 种 值 的 数组 ， 评 估 和 验证 插入 排 序 和 选择 排序 的 性 能 ， 假 设 
两 种 主键 值 出 现 的 概率 相同 。 

希 尔 排序 的 递增 序列 。 通 过 实验 比较 算法 2.3 中 所 使 用 的 递增 序列 和 递增 序列 1，5，19，41， 

109，209，505，929，2161，3905，8929，16 001，36 289，64 769，146 305，260 609 ( 这 是 通 
过 序列 9x 44-9x24+1 和 4-3 x2+1 综合 得 到 的 ) 。 可 以 参考 练习 2.1.11。 

几何 级 数 递 增 序列 。 通 过 实验 找到 一 个 +， 使 得 对 于 大 小 为 N=10 的 任意 随机 数组 ， 使 用 递增 序 
列 1,， Lj, LPJ, LeJ], LtJ,，… 的 希 尔 排序 的 运行 时 间 最 短 。 给 出 你 能 找到 的 三 个 最 佳 1 值 以 及 相 
应 的 递增 序列 。 

以 下 练习 描述 的 是 各 种 用 于 评估 排序 算法 的 测试 用 例 。 它 们 的 作用 是 用 随机 数据 帮助 你 增进 对 
性 能 特性 的 理解 。 随 着 命令 行 指定 的 实验 次 数 的 增 大 ， 可 以 和 SortCompare 一 样 在 它们 中 使 用 
time() 函数 来 得 到 更 精确 的 结果 。 在 以 后 的 几 节 中 我 们 会 使 用 这 些 练习 来 评估 更 加 复杂 的 算法 。 
双 信 测试。 编写 一 个 能 够 对 排序 算法 进行 双 倍 测试 的 用 例 。 数 组 规模 N 的 起 始 值 为 1000， 排 序 
后 打印 N、 估 计 排序 用 时 、 实 际 排序 用 时 以 及 在 N 增 信之 后 两 次 用 时 的 比例 。 用 这 段 程序 验证 在 
随机 输入 模型 下 插入 排序 和 选择 排序 的 运行 时 间 都 是 平方 级 别 的 。 对 希 尔 排序 的 性 能 作出 猜想 
并 验证 你 的 猜想 。 

运行 时 间 曲 线 图 。 编 写 一 个 测试 用 例 ， 使 用 StdDraw 在 各 种 不 同 规模 的 随机 输入 下 将 算法 的 平 
均 运行 时 间 绘 制 成 一 张 曲线 图 。 可 能 需要 添加 一 两 个 命令 行 参数 ， 请 尽量 设计 一 个 实用 的 工具 。 

分 布 图 。 对 于 你 为 练习 2.1.33 给 出 的 测试 用 例 ， 在 一 个 无 穷 循环 中 调用 sort() 方法 将 由 第 三 个 
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命令 行 参数 指定 大 小 的 数组 排序 ， 记 录 每 次 排序 的 用 时 并 使 用 StdDraw 在 图 上 画 出 所 有 平均 运 
行 时 间 ， 应 该 能 够 得 到 一 张 运行 时 间 的 分 布 图 。 

2.1.34 ”罕见 情况 。 编 写 一 个 测试 用 例 ， 调 用 sort 0 方法 对 实际 应 用 中 可 能 出 现 困难 或 极端 情况 的 数组 
进行 排序 。 比 如 ， 数 组 可 能 已 经 是 有 序 的 ， 或 是 逆序 的 ， 数 组 的 所 有 主键 相同 ， 数 组 的 主键 只 
有 两 种 值 ， 大 小 为 0 或 是 1 的 数组 。 

2.1.35 不 均匀 的 概率 分 布 。 编 写 一 个 测试 用 例 ， 使 用 非 均匀 分 布 的 概率 来 生成 随机 排列 的 数据 ， 包 括 : 





口 高 斯 分 布 ; 

口 泊 松 分 布 ; 

口 几何 分 布 ; 

口 离散 分 布 (一 种 特殊 情况 请 见 练习 2.1.28 ) 。 

评估 并 验证 这 些 输 入 数据 对 本 节 讨论 的 算法 的 性 能 的 影响 。 268, 











2.1.36 ”不 均匀 的 数据 。 编 写 一 个 测试 用 例 ， 生 成 不 均匀 的 测试 数据 ， 包 括 : 
口 一 半数 据 是 0， 一 半 是 1; 
口 一 半数 据 是 0，1/4 是 1，14 是 2， 以 此 类 推 ; 
口 一 半数 据 是 0， 一 半 是 随机 int 值 。 
评估 并 验证 这 些 输入 数据 对 本 节 讨论 的 算法 的 性 能 的 影响 。 
2.1.37 ”部 分 有 序 。 编 写 一 个 测试 用 例 ， 生 成 部 分 有 序 的 数组 ， 包 括 : 
口 95% 有 序 ， 其 余部 分 为 随机 值 ; 
口 所 有 的 元 素 和 它们 的 正确 位 置 的 距离 都 不 超过 10; 
口 5% 的 元 素 随 机 分 布 在 整个 数组 中 ， 剩 下 的 数据 都 是 有 序 的 。 
评估 并 验证 这 些 输入 数据 对 本 节 讨 论 的 算法 的 性 能 的 影响 。 
2.1.38 不 同类 型 的 元 素 。 编写 一 个 测试 用 例 , 生成 由 多 种 数据 类 型 元 素 组 成 的 数组 , 元 素 的 主键 值 随 机 ， 
包括 ; 
口 每 个 元 素 的 主键 均 为 String 类 型 ( 至 少 长 10 个 字符 ) ， 并 含有 一 个 double 值 ; 
口 每 个 元 素 的 主键 均 为 double 类 型 ， 并 含有 10 个 String 值 (每 个 都 至 少 长 10 个 字符 ) ; 
口 每 个 元 素 的 主键 均 为 int 类 型 ， 并 含有 一 个 int[20] 值 
评估 并 验证 这 些 输 入 数据 对 本 节 讨论 的 算法 的 性 能 的 影响 。 269| 
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2.2 ”归并 排序 


在 本 节 中 我 们 所 讨论 的 算法 都 基于 归并 这 个 简单 的 操作 ， 即 将 两 个 有 序 的 数组 归并 成 一 个 更 大 
的 有 序数 组 。 很 快 人 们 就 根据 这 个 操作 发 明了 一 种 简单 的 递归 排序 算法 : 归并 排序 。 要 将 一 个 数组 
排序 ， 可 以 先 (递归 地 ) 将 它 分 成 两 半分 别 排序 ， 然 后 将 结果 归并 起 来 。 你 将 会 看 到 ， 归 并 排序 最 
吸引 人 的 性 质 是 它 能 够 保证 将 任意 长 度 为 的 数组 排序 所 需 时 间 和 NlogN 成 正比 ; 它 的 主要 缺点 
则 是 它 所 需 的 额外 空间 和 N 成 正比 。 简 单 的 归并 排序 如 图 2.2.1 所 示 。 


输 AMERCGCESORTEXAMPLE 
将 左 半 部 分 排序 E E G M 0 R R S 
将 右 半 部 分 排序 A EE 
归并 结果 A E E E E G L N N 0 P R R S T X 


图 2.2.1 “归并 排序 示意 图 


2.2.1 原 地 归并 的 抽象 方法 

实现 归并 的 一 种 直截了当 的 办 法 是 将 两 个 不 同 的 有 序数 组 归并 到 第 三 个 数组 中 ， 两 个 数组 中 的 
元 素 应 该 都 实现 了 Comparable 接口 。 实 现 的 方法 很 简单 ， 创 建 一 个 适当 大 小 的 数组 然后 将 两 个 输 
人 数组 中 的 元 素 一 个 个 从 小 到 大 放 人 这 个 数组 中 

但 是 ， 当 用 归并 将 一 个 大 数组 排序 时 ， 我 们 需要 进行 很 多 次 归并 ， 因 此 在 每 次 归并 时 都 创建 一 
个 新 数组 来 存储 排序 结果 会 带 来 问题 。 我 们 更 希望 有 一 种 能 够 在 原 地 归并 的 方法 ， 这 样 就 可 以 先 将 
前 半 部 分 排序 ， 再 将 后 半 部 分 排序 ， 然 后 在 数组 中 移动 元 素 而 不 需要 使 用 额外 的 空间 。 你 可 以 先 停 
下 来 想 想 应 该 如 何 实现 这 一 点 ， 竺 一 看 很 容易 做 到 ， 但 实际 上 已 有 的 实现 都 非常 复杂 ， 尤 其 是 和 使 
用 额外 空间 的 方法 相 比 。 

尽管 如 此 ， 将 原 地 归并 抽象 化 仍然 是 有 帮助 的 。 与 之 对 应 的 是 我 们 的 方法 签名 merge(a，1o， 
mid，.hi)， 它 会 将 子 数组 a[10. .mid] 和 a[mid+1. .hi] 归并 成 一 个 有 序 的 数组 并 将 结果 存放 在 
ar[1o. .hi] 中 。 下 面 的 代码 只 用 几 行 就 实现 了 这 种 归并 。 它 将 涉及 的 所 有 元 素 复制 到 一 个 辅助 数组 
中 ， 青 把 归并 的 结果 放 回 原 数组 中 。 实 现 的 另 一 种 方法 请 见 练习 2.2.10。 


原 地 归并 的 抽象 方法 


public static void merge(Comparable[] a, int 1o，int mid, int hi) 
{ // 将 ar1o. .mid] 和 a[mid+1..hi] 归并 
int 1 = 10, j = mid+1; 


for (int k = 10; k <= hi; k++) // 将 a[1o..hi] 复 制 到 aux[1o..hi] 
aux[k] = a[k]; 





for (int k = lo; k <= hi; k++) // 归并 回 到 a[1o. .hi] 


if Ci > mid) a[k] = aux[j++]; 
else if (j > hi ) a[k] = aux[i++]; 
else if (less(aux[j]，aux[i])) a[k] = aux[j++]; 
else a[k] = aux[i++]; 


该 方法 先 将 所 有 元 素 复制 到 aux[] 中 , 然后 再 归并 回 a[] 中 。 方法 在 归并 时 (第 二 个 for 循环 ) 
进行 了 4 个 条 件 判断 : 左 半边 用 尽 ( 取 右 半边 的 元 素 ) 、 右 半边 用 尽 ( 取 左 半边 的 元 素 ) 、 右 半边 


的 当前 元 素 小 于 左 半 边 的 当前 元 素 ( 取 右 半边 的 元 素 ) 以 及 右 半边 的 当前 元 素 大 于 等 于 左 半边 的 当 


前 元 素 ( 取 左 半边 的 元 素 ) 。 
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a[l] aux[] 
和 
输入 EEGMRIACERT 
复制 EEGMRIACERT EEGMRIACER 
0 5 
0 A 0 6 E A 
1 C 9 7 £ 
2 E 0 E 
3 E 2 EE E 
4 E 2 8 G E 
天 6 3 8 G R 
6 M 4 8 M R 
7 R 5 8 R R 
8 R 5 9 R 
Ej T 610 
归并 结果 ACEEEGNMRRT 
原 地 归并 的 抽象 方法 的 轨迹 
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2.2.2 自 项 向 下 的 归并 排序 


算法 2.4 基于 原 地 归并 的 抽象 实现 了 另 一 种 递归 归并 ， 这 也 是 应 用 高 效 算法 设计 中 分 治 思想 的 
最 典型 的 一 个 例子 。 这 段 递归 代码 是 归纳 证 明 算法 能 够 正确 地 将 数组 排序 的 基础 : 如 果 它 能 将 两 个 


子 数组 排序 ， 它 就 能 够 通过 归并 两 个 子 数组 来 将 整个 数组 排序 。 


算法 2.4_ 自 项 向 下 的 归并 排序 





public class Merge 
8 


private static Comparable[] aux; 


// 归并 所 需 的 辅助 数组 


public static void sort(Comparable[] a) 


{ 


aux = new Comparable[a.1length]; // 一 次 性 分 配 空间 
sort(a, 0, a.length - 1); 


1 


private static void sort(Comparable[] a, int lo, int hi) 
{ // 将 数组 a[10. .hi] 排 序 

if (hi <= 10) return; 

int mid = lo + (hi - 10)/2; 


sort(a, 10, mid); 


sort(a, mid+1, hi); 
merge(a, lo, mid, hi); 


了 
} 


// 将 左 夺 边 排序 
// 和 将 右 丰 边 排序 


// 归并 结果 ( 代码 见 “ 原 地 归并 的 抽象 方法 ”) 
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序 


要 对 子 数组 a[10. .hi] 进行 排序 ， 先 将 它 分 为 a[10. .mid] 和 a[mid+1. .hi] 两 部 分 ， 分 别 通过 


递归 调用 将 它们 单独 排序 ， 最 后 将 有 序 的 子 数组 归并 为 最 终 的 排序 结果 。 








a[l] 
19 hio1l2345678 9101112131415 
[| WERGYESORTEXAMYPL E 
mergela, 0, 0, 1) EM 
merge(a, 2, 2, 3) GR 
merge(a, 0, 1, 3) E G M R 
merge(a, 4, 4, 5) 生活 
merge(a, 6, 6, 7) OR 
merge(a, 4, 5, 7) E 0 R S 
merge(a, 0, 3, 7) EEGMORRS 
merge(a, 8, 8, 9) ET 
merge(a, 10, 10, 11) A X 
merge(a, 8, 9, 11) AETX 
merge(a, 12, 12, 13) MP 
merge(a, 14, 14, 15) EL 
merge(a, 12, 13, 15) ELMP 
merge(a, 8, 11, 15) AEELNPTX 
merge(a, 0, 7, 15) A EE EEBLNNDOGPFRNST 
自 顶 向 下 的 归并 排序 中 归并 结果 的 轨迹 
要 理解 归并 排序 就 要 仔细 研究 该 方法 调 scrt(a，0，15) 
Se 将 左 半 sort(a, 0, 7) 
用 的 动态 情况 ， 如 图 2.2.2 中 的 轨迹 所 示 。 要 部 : at 9; 二 


将 a[0..15] 排序 ，sortQ 方法 会 调用 自己 将 
a[0..7] 排序 ， 再 在 其 中 调用 自己 将 a[0..3] 和 
a[0. .1] 排序 。 在 将 a[0] 和 a[1] 分 别 排序 之 后 ， 
终于 才 会 开始 将 a[0] 和 a[1] 归并 ( 简单 起 见 ， 
我 们 在 轨迹 中 把 对 单个 元 素 的 数组 进行 排序 的 调 
用 省 略 了 ) 。 第 二 次 归并 是 a[2] 和 a[3] ， 然 后 
是 a[0..1] 和 a[2..3]， 以 此 类 推 。 从 这 段 轨迹 
可 以 看 到 ，sortQ 方法 的 作用 其 实在 于 安排 多 次 
merge() 方法 调用 的 正确 顺序 。 后 面 几 节 还 会 用 
到 这 个 发 现 。 

这 段 代码 也 是 我 们 分 析 归 并 排序 的 运行 时 间 
的 基础 。 因 为 归并 排序 是 算法 设计 中 分 治 思想 的 
典型 应 用 ， 我 们 会 详细 对 它 进行 分 析 。 

我 们 也 可 以 通过 图 2.2.3 所 示 的 树 状 图 来 理 
解 命题 F。 每 个 结 点 都 表示 一 个 sortO 〇 方法 通 
过 merge() 方法 归并 而 成 的 子 数组 。 这 棵 树 正 
好 有 nn 层 。 对 于 0 到 n-1 之 间 的 任意 k， 自 顶 向 
下 的 第 上 层 有 2 个子 数组 ， 每 个 数组 的 长 度 为 
2”"*， 归 并 最 多 需要 2"* 次 比较 。 因 此 每 层 的 比 
较 次 数 为 2 x 2" 壬 2"，n 层 总 共 为 n2"=NlgN。 


sort(a, 0, 1) 
merge(a, 0, 0, 1) 
sort(a, 2, 3) 





merge(a, 
sort(a, 4, 7) 
sort(a, 4, 5) 
merge(a, 4, 4, 5) 
sort(a, 6, 7) 
merge(a, 6, 6, 7) 
merge(a, 4, 5, 7) 
merge(a, 0, 3, 7) 
sorta 415 
sort(a, 8, 11) 
sort(a, 8, 9) 
merge(a, 8, 8, 9) 
sort(a, 10, 11) 
merge(a, 10, 10, 11) 
merge(a, 8, 9, 11) 
sort(a, 12, 15) 
sort(a, 12, 13) 
merge(a, 12, 12, 13) 
sort(a, 14, 15) 
merge(a, 14, 14,15) 
merge(a, 12, 13, 15) 
merge(a, 8, 11, 15) 
归并 结果 merge(a，0，7，15) 


2.2.2 自 顶 向 下 的 归并 排序 的 调用 轨迹 
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命题 F。 对 于 长 度 为 N 的 任意 数组 ， 自 顶 向 下 的 归并 特 序 需要 %NlgN 至 NigN 次 比较 。 


证 明 。 令 C(N) 表示 将 一 个 长 度 为 NN 的 数组 排序 时 所 需要 的 比较 次 数 。 我 们 有 C(0=C(1)=0， 对 
于 N>0， 通 过 递归 的 sort() 方法 我 们 可 以 由 相应 的 归纳 关系 得 到 比较 次 数 的 上 限 : 
CU < CLN2b+ cfN2D+N 
右边 的 第 一 项 是 将 数组 的 左 半 部 分 排序 所 用 的 比较 次 数 ， 第 二 项 是 将 数组 的 右 半 部 分 排序 所 用 
的 比较 次 数 ， 第 三 项 是 归并 所 用 的 比较 次 数 。 因 为 归并 所 需 的 比较 次 数 最 少 为 LN'2|， 比 较 次 
数 的 下 限 是 : 
CN) = CLN2b+ C(ON2Db+LN2) 
当 NN 为 2 的 短 ( 即 N=2") 且 等 号 成 立时 我 们 能 够 得 到 一 个 解 。 首 先 ， 因 为 上 LM2 HN/2 此 2"'， 
可 以 得 到 : 
C2) =2C02"")+2" 

将 两 边 同时 除 以 2" 可 得 : 

COYY = CO 2 + 
用 这 个 公式 替换 右边 的 第 一 项 ， 可 得 : 

C2Y2" = CO))2 +1+1 
将 上 一 步 重复 n-1 访 可 得 ; 

C(2)2"= C2N2 +n 

将 两 边 同时 乘 以 2" 就 可 以 解 得 : 

CNCO")=n2"=NMeN 
对 于 一 般 的 N， 得 到 的 准确 值 要 更 复杂 一 些 。 但 对 比较 次 数 的 上 下 界 不 等 式 使 用 相同 的 方法 不 
难 证 明 前 面 所 述 的 对 于 任意 N 的 结论 。 这 个 结论 对 于 任意 输入 值 和 顺序 都 成 立 。 
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图 2.2.3 N=16 时 归并 排序 中 子 数组 的 依赖 树 2%4 











命题 G。 对 于 长 度 为 入 的 任意 数组 ， 自 顶 向 下 的 归并 排序 最 多 需要 访问 数组 6MIgN 次 。 


证 明 。 每 次 归并 最 多 需要 访问 数组 6V 次 (2N 次 用 来 复制 ,2N 次 用 来 将 排 好 序 的 元 素 移动 回去 ， 
另外 最 多 比较 2N 次 ) ， 根 据 命题 F 即 可 得 到 这 个 命题 的 结果 。 
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命题 F 和 命题 G 告诉 我 们 归并 排序 所 需 的 时 间 和 MgN 成 正比 。 这 和 2.1 节 所 述 的 初级 排序 方法 
不 可 同日 而 语 ， 它 表明 我 们 只 需要 比 遍历 整个 数组 多 个 对 数 因子 的 时 间 就 能 将 一 个 庞大 的 数组 排序 。 
可 以 用 归并 排序 处 理 数 百 万 甚至 更 大 规模 的 数组 ， 这 是 插入 排序 或 者 选择 排序 做 不 到 的 。 归 并 排序 的 
主要 缺点 是 辅助 数组 所 使 用 的 额外 空间 和 N 的 大 小 成 正比 。 另 一 方面 ， 通 过 一 些 细致 的 思考 我 们 还 
能 够 大 幅度 缩短 归并 排序 的 运行 时 间 。 
2.2.2.1 ”对 小 规模 子 数组 使 用 插入 排序 

用 不 同 的 方法 处 理 小 规模 问题 能 改进 大 多 数 递归 算法 的 性 能 ， 因 为 递归 会 使 小 规模 问题 中 方法 
的 调用 过 于 频繁 ， 所 以 改进 对 它们 的 处 理 方法 就 能 改进 整个 算法 。 对 排序 来 说 ， 我 们 已 经 知道 插入 
排序 (或 者 选择 排序 ) 非常 简单 ， 因 此 很 可 能 在 小 数组 上 比 归并 排序 更 快 。 和 之 前 一 样 ， 一 幅 可 视 
轨迹 图 能 够 很 好 地 说 明 归并 排序 的 行为 方式 。 图 2.2.4 中 的 可 视 轨迹 图 显示 的 是 改良 后 的 归并 排序 
的 所 有 操作 。 使 用 插入 排 序 处 理 小 规模 的 子 数 组 ( 比如 长 度 小 于 15 ) 一 般 可 以 将 归并 排序 的 运行 时 
间 缩 短 10% 一 15% ( 请 见 练习 2.2.23 ) 。 


笋 -个子 政 组 all 
第 二 个 子 数组 al 


第 次 并 aa 








al 
llllll 
| 
前 半 部 分 排序 完成 mn 
| 
llll 
| 
il 
和 | 
al 


后 半 部 分 排序 完成 mn 


此 时 “ee 
图 2.2.4 改进 了 小 规模 子 数 组 排序 方法 后 的 自 项 向 下 的 归并 排序 的 可 视 轨迹 
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2.2.2.2 ”测试 数组 是 否 已 经 有 序 

我 们 可 以 添加 一 个 判断 条 件 ， 如 果 a[mid] 小 于 等 于 a[mid+1] ， 我 们 就 认为 数组 已 经 是 有 序 
的 并 跳 过 merge() 方法 。 这 个 改动 不 影响 排序 的 递归 调用 ， 但 是 任意 有 序 的 子 数组 算法 的 运行 时 间 
就 变 为 线性 的 了 ( 请 见 练习 2.2.8 ) 。 
2.2.2.3 不 将 元 素 复 制 到 辅助 数组 

我 们 可 以 节省 将 数组 元 素 复制 到 用 于 归并 的 辅助 数组 所 用 的 时 间 (但 空间 不 行 ) 。 要 做 到 这 一 
点 我 们 要 调用 两 种 排序 方法 ， 一 种 将 数据 从 输入 数组 排序 到 辅助 数组 ， 一 种 将 数据 从 辅助 数组 排序 
到 输入 数组 。 这 种 方法 需要 一 些 技巧 ,我 们 要 在 递归 调用 的 每 个 层次 交换 输入 数组 和 辅助 数组 的 角 
色 (请 见 练习 2.2.11 ) 

这 里 我 们 要 重新 强调 第 1 章 中 提出 的 一 个 很 容易 遗忘 的 要 点 。 在 每 一 节 中 ， 我 们 会 将 书 中 的 每 
个 算法 都 看 做 某 种 应 用 的 关键 。 但 在 整体 上 ， 我 们 希望 学 习 的 是 为 每 种 应 用 找到 最 合适 的 算法 。 我 
们 并 不 是 在 推荐 读者 一 定 要 实现 所 提 到 的 这 些 改进 方法 ， 而 是 提醒 大 家 不 要 对 算法 初始 实现 的 性 能 
盖 棺 定论 。 研 究 一 个 新 问题 时 ， 最 好 的 方法 是 先 实现 一 个 你 能 想到 的 最 简单 的 程序 ， 当 它 成 为 瓶颈 
的 时 候 再 继续 改进 它 。 实 现 那些 只 能 把 运行 时 间 缩 短 某 个 常数 因子 的 改进 措施 可 能 并 不 值得 。 你 需 
要 用 实验 来 检验 一 项 改进 ， 正 如 本 书 中 所 有 练习 所 演示 的 那样 。 

对 于 归并 排序 ， 刚 才 列 出 的 三 个 建议 都 很 容易 实现 且 在 应 用 归并 排序 时 是 十 分 有 吸引 力 的 一 一 比 
如 本 章 最 后 讨论 的 情况 


2.2.3 自 底 向 上 的 归并 排序 
道 归 实现 的 归并 排 庆 是 算法 设计 中 分 治 思 想 的 典型 应 用 。 我 们 将 一 个 大 间 是 分割 成 小 问题 分 
别 解决 ， 然 后 用 所 有 小 问题 的 答案 来 解决 整个 大 问题 。 尽 管 我 们 考虑 的 问题 是 归并 两 个 大 数组 ， 
实际 上 我 们 归并 的 数组 大 多 数 都 非常 小 。 实 现 归并 。 szel 
排序 的 另 一 种 方法 是 先 归并 那些 微型 数组 ， 然 后 再 二 aaa 
成 对 归并 得 到 的 子 数组 ， 如 此 这 般 ， 直 到 我 们 将 整 。 ， 
个 数组 天 在 一 起 。 这 种 实现 方法 比 奈 地 得 法 ual 
所 过 要 的 代码 量 更 少 。 首 先 我 们 进行 的 是 丙 两 归并。 
( 把 每 个 元 素 想象 成 一 个 大 小 为 1 的 数组 ) ， 然 后 
hn aod laa a 
个 元 素 的 数组 ) ， 然 后 是 八 八 的 归并 ， 一 直下 去 。 
ee al al 
能 比 第 一 个 子 数组 要 小 (但 这 对 mergeC 方法 不 是 。 36 wl 
问题 ) ， 如 果 不 是 的 话 所 有 的 归并 中 两 个 数组 大 小 oo 
都 应 该 一 样 ， 而 在 下 一 轮 中 子 数 组 的 大 小 会 一 售 。 
此 过 程 的 可 视 轨 迹 如 图 2.2.5 所 示 。 noon 
自 底 向 上 的 归并 排序 算法 的 实现 如 下 。 225 NL 


自 底 向 上 的 归并 排序 

















public class MergeBU 
{ 
private static Comparable[] aux; // 归并 所 需 的 辅助 数组 
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// merge() 方 法 的 代码 请 见 “ 原 地 归并 的 抽象 方法 ” 
public static void sort(Comparable[] a) 
{ // ”进行 1gN 次 两 两 归并 
int N = alength; 
aux = new Comparable[N]; 
for (int sz = 1; sz < Ni sz = sz+sz) // sz 于 数组 大 小 
for (int lo = 0; lo < N-sz; 10 += sz+sz) // 10: 寺 数组 索引 
merge(a, 10, lo+sz-1, Math.min(lo+sz+sz-1, N-1)); 
} 
} 


自 底 向 上 的 归并 排序 会 多 次 遍历 整个 数组 ， 根 据 子 数组 大 小 进行 两 两 归并 。 子 数组 的 大 小 sz 的 初始 值 
为 1, 每 次 加 倍 。 最 后 一 个 子 数组 的 大 小 只 有 在 数组 大 小 是 sz 的 偶数 们 的 时 候 才 会 等 于 sz( 否则 它 会 比 sz 小 )。 





a[i] 
0123 4 56 7 8 9101112131415 
和 MERGESORTEXAMPLE 
merge(a, 0, 0, 1) E M 
merge(a, 2, 2, 3) GR 
merge(a, 4, 4, 5) ES 
merge(a, 6, 6, 7) OR 
merge(a, 8, 8, 9) ET 
merge(a, 10, 10, 11) A_ X 
merge(a，12，12，13) M P 
merge(a, 14, 14, 15) i 
sz=2 
merge(a， 0, 1, 3) EGMR 
merge(a, 4, 5, 7) 里 坟 ,入 '5 
merge(a, 8, 9, 11) hd 
merge(a, 12, 13, 15) E L M P 
sz=4 
merge(a, 0, 3, 7) E EGCGHORRS 
merge(a, 8, 11, 15) 六 是 并 二 全 其 
SZ = 8 
merge(a， 0, 7, 15) AEEE ECLMMOPRRSTX 
自 底 向 上 的 归并 排序 的 归并 结果 





命题 H。 对 于 长 度 为 NN 的 任意 数组 ， 自 底 向 上 的 归并 排序 需要 1/2NlgN 至 NlgN 次 比较 ， 最 多 
访问 数组 6NIgN 次 。 


证 明 。 处 理 一 个 数组 的 遍 数 正好 是 LlgN] ( 即 2" < N<2" 中 的 n) 。 每 一 遍 会 访问 数组 6N 次 ， 
比较 次 数 在 N/2 入 之 间 。 


当 数 组 长 度 为 2 的 寡 时 ， 自 项 向 下 和 自 底 向 上 的 归并 排序 所 用 的 比较 次 数 和 数组 访问 次 数 正 好 
相同 ， 只 是 顺序 不 同 。 其 他 时 候 ， 两 种 方法 的 比较 和 数组 访问 的 次 序 会 有 所 不 同 【 请 见 练习 2.2.5 ) 。 

自 底 向 上 的 归并 排序 比较 适合 用 链表 组 织 的 数据 。 想 象 一 下 将 链表 先 按 大 小 为 1 的 子 链表 进行 
排序 ， 然 后 是 大 小 为 2 的 子 链表 ， 然 后 是 大 小 为 4 的 子 链表 等 。 这 种 方法 只 需要 重新 组 织 链表 链接 
就 能 将 链表 原 地 排序 不 需要 创建 任何 新 的 链表 结 点 ) 。 

用 自 顶 向 下 或 是 自 底 向 上 的 方式 实现 任何 分 治 类 的 算法 都 很 自然 。 归 并 排序 告诉 我 们 ， 当 能 够 
用 其 中 一 种 方法 解决 一 个 问题 时 ， 你 都 应 该 试 试 另 一 种 。 你 是 希望 像 Merge.sort() 中 那样 化 整 为 
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零 (然后 递归 地 解决 它们 ) 的 方式 解决 问题 ， 还 是 希望 像 MergeBU. sortO) 中 那样 循序 渐进 地 解决 
问题 呢 ? 


2.2.4 ”排序 算法 的 复杂 度 

学 习 归并 排序 的 一 个 重要 原因 是 它 是 证 明 计算 复杂 性 领域 的 一 个 重要 结论 的 基础 ， 而 计算 复杂 
性 能 够 帮助 我 们 理解 排序 自身 固有 的 难 易 程 度 。 计 算 复杂 性 在 算法 设计 中 扮演 着 非常 重要 的 角色 ， 
而 这 个 结论 正 是 和 排序 算法 的 设计 直接 相关 的 ， 因 此 接 下 来 我 们 就 要 详细 地 讨论 它 。 

研究 复杂 度 的 第 一 步 是 建立 一 个 计算 模型 。 一 般 来 说 ,研究 者 会 尽量 寻找 一 个 和 问题 相关 的 最 
简单 的 模型 。 对 排序 来 说 ， 我 们 的 研究 对 象 是 基于 比较 的 算法 ， 它 们 对 数组 元 素 的 操作 方式 是 由 主 
键 的 比较 决定 的 。 一 个 基于 比较 的 算法 在 两 次 比较 之 间 可 能 会 进行 任意 规模 的 计算 ， 但 它 只 能 通过 
主键 之 间 的 比较 得 到 关于 某 个 主键 的 信息 。 因 为 我 们 局 限于 实现 了 Comparable 接口 的 对 象 ， 本 音 
中 的 所 有 算法 都 属于 这 一 类 ( 注意 ， 我 们 忽略 了 访问 数组 的 开销 ) 。 在 第 5 章 中 ， 我 们 会 讨论 不 局 
限于 Comparable 元 素 的 算法 。 


命 显 |。 没有 任何 基于 比较 的 算法 能 够 保证 使 用 少 于 le (NI ) ~ NlgN 次 比较 将 长 度 为 NN 的 数组 
排序 。 


证 明 。 首 先 ， 假 设 没有 重复 的 主键 ， 因 为 任何 排序 算法 都 必须 能 够 处 理 这 种 情况 。 我 们 使 用 二 
叉 树 来 表示 所 有 的 比较 。 树 中 的 站 点 要 么 是 一 片 叶 于 Gon ) ， 表 示 排 序 完成 是 原 输入 的 
排列 顺序 是 a[io], a[is],…, a[iws] ， 要么 是 一 个 内 部 结 点 (B)， 表 示 a[i] 和 a[j] 之 间 的 一 次 
比较 操作 ， 它 的 左 子 树 表示 a[i] 小 于 a[j] 时 进行 的 其 他 比较 ， 右 子 树 表示 a[i] 大 于 a[j] 
时 进行 的 其 他 比较 。 从 根 结 点 到 叶子 结 点 每 一 条 路 径 都 对 应 着 算法 在 建立 叶子 结 点 所 示 的 顺序 
时 进行 的 所 有 比较 。 例 如 ， 这 是 一 棵 N=3 时 的 比较 树 : 





我 们 从 来 没有 明确 地 构造 这 棵 树 一 一 它 只 是 用 来 描述 算法 中 的 比较 的 一 个 数学 工具 。 

从 比较 树 观察 得 到 的 第 一 个 重要 结论 是 这 棵 树 应 该 至 少 有 Ni 个 叶子 结 点 ， 因 为 NN 个 不 同 的 主 
键 会 有 NI 种 不 同 的 排列 。 如 果 叶 子 结 点 少 于 NI， 那 肯定 有 一 些 排列 顺序 被 遵 泪 了 。 算 法 对 于 
那些 被 遗漏 的 输入 肯定 会 失败 。 

从 根 结 点 到 叶子 结 点 的 一 条 路 径 上 的 内 部 结 点 的 数量 即 是 某 种 输入 下 算法 进行 比较 的 次 数 。 我 们 
感 兴趣 的 是 这 种 路 径 能 有 多 长 ( 也 就 是 树 的 高 度 ) ， 因 为 这 也 就 是 算法 比较 次 数 的 最 坏 情况 。 二 
又 树 的 一 个 基本 的 组 合 学 性 质 就 是 高 度 为 有 的 树 最 多 只 可 能 有 2* 个 叶子 结 点 ， 拥 用 个 结 点 的 
树 是 完美 平生 的 ， 或 称 为 完全 树 。 下 图 所 示 的 就 是 一 个 有 4 的 例子 。 
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高 度 为 4 的 完全 树 
《灰色 部 分 所 示 ) ， 
共有 2*=16 个 叶子 结 点 







任何 其 他 高 认为 4 
的 树 (黑色 部 分 所 
条 ， 叶 了结 点 少 了 16 个 


结合 前 两 段 的 分 析 可 知 ， 任 意 基于 比较 的 排序 算法 都 对 应 着 一 棵 高 的 比较 树 ( 如 下 图 所 示 ) ， 
其 中 : 
Ml 入 叶子 结 点 的 数量 二 2 





至 少 NI 个 叶子 结 点 不 超过 2 个 叶子 结 点 2 


及 的 值 就 是 最 坏 情况 下 的 比较 次 数 ， 因 此 对 不 等 式 的 两 边 取 对 数 即 可 得 到 任意 算法 的 比较 次 数 
至 少 是 1gNl。 根 据 斯 特 灵 公 式 对 阶乘 函数 的 近似 ( 见 表 1.4.6) 可 得 lgN1~NIgN。 


这 个 结论 告诉 了 我 们 在 设计 排序 算法 的 时 候 能 够 达到 的 最 佳 效果 。 例 如 ， 如 果 没有 这 个 结论 ， 
我 们 可 能 会 去 尝试 设计 一 个 在 最 坏 情况 下 比较 次 数 只 有 归并 排序 的 一 半 的 基于 比较 的 算法 。 命 题 I 
中 的 下 限 告诉 我 们 这 种 努力 是 没有 意义 的 -一 -这 样 的 算法 不 存在 。 这 是 一 个 重要 结论 ， 适 用 于 任何 
我 们 能 够 想到 的 基于 比较 的 算法 。 

命题 日 表明 归并 排序 在 最 坏 情况 下 的 比较 次 数 为 ~NigN。 这 是 其 他 排序 算法 复杂 度 的 上 限 ， 也 
就 是 说 更 好 的 算法 需要 保证 使 用 的 比较 次 数 更 少 。 命 题 说 明 没有 任何 排序 算法 能 够 用 少 于 ~NlgN 
次 比较 将 数组 排序 ， 这 是 其 他 排序 算法 复杂 度 的 下 限 。 也 就 是 说 ， 即 使 是 最 好 的 算法 在 最 坏 的 情况 
下 也 至 少 需要 这 么 多 次 比较 。 将 两 者 结合 起 来 也 就 意味 着 : 


命题 J。 归 并 排序 是 一 种 渐进 最 优 的 基于 比较 排序 的 算法 。 


证 明 。 更 准确 地 说 ， 这 名 话 的 意思 是 ， 归 并 排序 在 最 坏 情况 下 的 比较 次 数 和 任意 基于 比较 的 排 
序 算法 所 需 的 最 少 比较 次 数 都 是 ~NIgN。 命 题 H 和 命题 1 证 明了 这 些 结论 。 


需要 强调 的 是 ， 和 计算 模型 一 样 ， 我 们 需要 精确 地 定义 最 优 算法 。 例 如 ， 我 们 可 以 严格 地 认为 
仅仅 只 需要 lgN! 次 比较 的 算法 才 是 最 优 的 排序 算法 。 我 们 不 这 么 做 的 原因 是 ， 即 使 对 于 很 大 的 N， 
这 种 算法 和 比如 说 ) 归并 排序 之 间 的 差异 也 并 不 明显 。 或 者 我 们 也 可 以 放宽 最 优 的 定义 ， 使 之 包 
含 任意 在 最 坏 情况 下 的 比较 次 数 都 在 MigN 的 某 个 常数 因子 范围 之 内 的 排序 算法 。 我 们 不 这 么 做 的 
原因 是 对 于 很 大 的 N， 这 种 算法 和 归并 排序 之 间 的 差距 还 是 很 明显 的 。 

计算 复杂 度 的 概念 可 能 会 让 人 觉得 很 抽象 ， 但 解决 可 计算 问题 内 在 困难 的 基础 性 研究 则 不 管 怎 
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么 说 都 是 非常 必要 的 。 而 且 , 在 适用 的 情况 下 ， 关 键 在 于 计算 复杂 度 会 影响 优秀 软件 的 开发 。 首 先 ， 
准确 的 上 界 为 软件 工程 师 保证 性 能 提供 了 空间 。 很 多 例子 表明 , 平方 级 别 排序 的 性 能 低 于 线性 排序 。 
其 次 ， 准 确 的 下 界 可 以 为 我 们 节省 很 多 时 间 ， 避 免 因 不 可 能 的 性 能 改进 而 投入 资源 。 


但 归并 排序 的 最 优 性 并 不 是 结束 ， 也 不 代表 在 实际 应 用 中 我 们 不 会 考虑 其 他 的 方法 了 ， 因 为 本 


节 中 的 理论 还 是 有 许多 局 限 性 的 ， 例 如 : 


口 归并 排序 的 空间 复杂 度 不 是 最 优 的 ; 

口 在 实践 中 不 一 定 会 遇 到 最 坏 情况 ; 

口 除了 比较 ， 算 法 的 其 他 操作 ( 例如 访问 数组 ) 也 可 能 很 重要 ; 
口 不 进行 比较 也 能 将 某 些 数据 排序 。 

因此 在 本 书 中 我 们 还 将 继续 学 习 其 他 一 些 排序 算法 。 


图 答 经 
问 ”归并 排序 比 希 尔 排序 快 吗 ? 
答 在 实际 应 用 中 ,它们 的 运行 时 间 之 间 的 差距 在 常数 级 别 之 内 ( 希 尔 排序 使 用 的 是 像 算 法 2.3 中 那样 


问 


的 经 过 验证 的 递增 序列 ) ， 因 此 相对 性 能 取决 于 具体 的 实现 。 


% java SortCompare Merge She11 100000 
For 100000 random Double values 
Merge is 1.2 times faster than She11 


理论 上 来 说 ， 还 没有 人 能够 证 明 希 尔 排序 对 于 随机 数据 的 运行 时 间 是 线性 对 数 级 别 的 ， 因 此 存在 平 
均 情 况 下 希 尔 排序 的 性 能 的 渐进 增长 率 ” 更 高 的 可 能 性 。 在 最 坏 情况 下 ， 这 种 差距 的 存在 已 经 被 证 实 
了 ， 但 这 对 实际 应 用 没有 影响 。 

为 什么 不 把 数组 aux[] 声明 为 merge() 方法 的 局 部 变量 ? 

这 是 为 了 避免 每 次 归并 时 ， 即 使 是 归并 很 小 的 数组 ， 都 创建 一 个 新 的 数组 。 如 果 这 么 做 ， 那 么 创建 
新 数组 将 成 为 归并 排序 运行 时 间 的 主要 部 分 ( 请 见 练习 2.2.26 ) 。 更 好 的 解决 方案 是 将 aux[] 变 为 
sort() 方法 的 局 部 变量 , 并 将 它 作为 参数 传递 给 merge() 方法 (为 了 简化 代码 我 们 没有 在 例子 中 这 
么 做 ， 请 见 练习 2.2.9) 。 

当 数组 中 存在 重复 的 元 素 时 归并 排序 的 表现 如 何 ? 

如 果 所 有 的 元 素 都 相同 ， 那 么 归并 排序 的 运行 时 间 将 是 线性 的 (需要 一 个 额外 的 测试 来 避免 归并 已 
经 有 序 的 数组 ) 。 但 如 果 有 多 个 不 同 的 重复 值 ， 这 样 做 的 性 能 收益 就 不 是 很 明显 了 。 例 如 ， 假 设 输 
人 数组 的 N 个 奇数 位 上 的 元 素 都 是 同一 个 值 ， 另 外 N 个 偶数 位 上 的 元 素 都 是 另 一 个 值 ， 此 时 算法 的 
运行 时 间 是 线性 对 数 的 (这样 的 数组 和 所 有 元 素 都 不 重复 的 数组 满足 了 相同 的 循环 条 件 ) ， 而 非 线 
性 的 。 


国 练习 


2.2.1 按照 本 节 开头 所 示 轨 迹 的 格式 给 出 原 地 归并 的 抽象 merge() 方法 是 如 何 将 数组 A EQ S U YE 


IN0 ST 排序 的 。 


外 即 运行 时 间 的 近似 函数 。 一 一 译 者 注 
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2.2.2 按照 算法 2.4 所 示 轨 迹 的 格式 给 出 自 顶 向 下 的 归并 排序 是 如 何 将 数组 E AS YQUESTIO0 
N 排 序 的 。 

2.2.3 用 自 底 向 上 的 归并 排序 解答 练习 2.2.2。 

2.2.4 是否 当 且 仅 当 两 个 输入 的 子 数组 都 有 序 时 原 地 归并 的 抽象 方法 才能 得 到 正确 的 结果 ? 证 明 你 的 结 
论 , 或 者 给 出 一 个 反例 。 

2.2.5 ” 当 输 入 数组 的 大 小 N=39 时 , 给 出 自 顶 向 下 和 自 底 向 上 的 归并 排序 中 各 次 归并 子 数组 的 大 小 及 顺序 。 

2.2.6 ”编写 一 个 程序 来 计算 自 项 向 下 和 自 底 向 上 的 归并 排序 访问 数组 的 准确 次 数 。 使 用 这 个 程序 将 N=1 
至 512 的 结果 绘 成 曲线 图 ， 并 将 其 和 上 限 6MgN 比较 。 

2.2.7 证 明 归并 排序 的 比较 次 数 是 单调 递增 的 ( 即 对 于 N>0，C(N+1)>C(N) ) 。 

2.2.8 假设 将 算法 2.4 修改 为 : 只 要 a[mid] <= a[mid+1] 就 不 调用 merge() 方法 ， 请 证 明 用 归并 排序 
处 理 一 个 已 经 有 序 的 数组 所 需 的 比较 次 数 是 线性 级 别 的 。 

2.2.9 在 库 函 数 中 使 用 aux[] 这 样 的 静态 数组 是 不 妥当 的 ， 因 为 可 能 会 有 多 个 程序 同时 使 用 这 个 类 。 实 
现 一 个 不 用 静态 数组 的 Merge 类 ， 但 也 不 要 将 aux[] 变 为 merge0) 的 局 部 变量 ( 请 见 本 节 的 答 
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疑 部 分 )。 提 示 : 可 以 将 辅助 数组 作为 参数 传递 给 递归 的 sort() 方法 。 





图 提高 是 


2.2.10 快速 归并 。 实 现 一 个 merge() 方法 ， 按 降序 将 a[] 的 后 半 部 分 复制 到 aux[] ， 然 后 将 其 归并 回 
a[] 中 。 这 样 就 可 以 去 掉 内 循环 中 检测 某 半边 是 否 用 尽 的 代码 。 注 意 : 这 样 的 排序 产生 的 结果 是 
不 稳定 的 (请 见 2.5.1.8 节 ) 。 

2.2.11 改进 。 实 现 2.2.2 节 所 述 的 对 归并 排序 的 三 项 改进 : 加 快 小 数组 的 排序 速度 ， 检 测 数组 是 否 已 经 
有 序 以 及 通过 在 递归 中 交换 参数 来 避免 数组 复制 。 

2.2.12 次 线性 的 额外 空间 。 用 大 小 M 将 数组 分 为 N/M 块 (简单 起 见 ， 设 M 是 N 的 约 数 ) 。 实 现 一 个 
归并 方法 ， 使 之 所 需 的 额外 空间 减少 到 max(M, N/M): (i) 可 以 先 将 一 个 块 看 做 一 个 元 素 ， 将 块 
的 第 一 个 元 素 作为 块 的 主键 ， 用 选择 排序 将 块 排序 ，(ii) 遍历 数组 ， 将 第 一 块 和 第 二 块 归并 ， 完 
成 后 将 第 二 块 和 第 三 块 归并 ， 等 等 。 

2.2.13 平均 情况 的 下 限 。 请 证 明 任意 基于 比较 的 排序 算法 的 预期 比较 次 数 至 少 为 ~-WgN ( 假设 输入 元 
素 的 所 有 排列 的 出 现 概率 是 均等 的 ) 。 提 示 : 比较 次 数 至 少 是 比较 树 的 外 部 路 径 的 长 度 ( 根 结 
点 到 所 有 叶子 结 点 的 路 径 长 度 之 和 ) ， 当 树 平衡 时 该 值 最 小 。 

2.2.14 归并 有 序 的 队列 。 编 写 一 个 静态 方法 , 将 两 个 有 序 的 队列 作为 参数 , 返回 一 个 归并 后 的 有 序 队列 。 

2.2.15 自 底 向 上 的 有 序 队列 归并 排序 。 用 下 面 的 方法 编写 一 个 自 底 向 上 的 归并 排序 : 给 定 N 个 元 素 ， 
创建 N 个 队列 ， 每 个 队列 包含 其 中 一 个 元 素 。 创 建 一 个 由 这 N 个 队列 组 成 的 队列 ， 然 后 不 断 用 
练习 2.2.14 中 的 方法 将 队列 的 头 两 个 元 素 归并 ， 并 将 结果 重新 加 入 到 队列 结尾 ， 直 到 队列 的 队 
列 只 剩 下 一 个 元 素 为 止 。 

2.2.16 自然 的 归并 排序 。 编 写 一 个 自 底 向 上 的 归并 排序 ， 当 需要 将 两 个 子 数组 排序 时 能 够 利用 数组 中 
已 经 有 序 的 部 分 。 首 先 找到 一 个 有 序 的 子 数组 ( 移动 指针 直到 当前 元 素 比 上 一 个 元 素 小 为 止 ) ， 
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然后 再 找 出 另 一 个 并 将 它们 归并 。 根 据 数组 大 小 和 数组 中 递增 子 数 组 的 最 大 长 度 分 析 算法 的 运 





行 时 间 。 
2.2.17 链表 排序 。 实 现 对 链表 的 自然 排序 ( 这 是 将 链表 排序 的 最 佳 方法 ， 因 为 它 不 需要 额外 的 空间 ， 
且 运 行 时 间 是 线性 对 数 级 别 的 ) 。 


2.2.18 


2.2.19 


2.2.20 


2.2.21 


2.2.22 
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打 乱 链表 。 实 现 一 个 分 治 算法 ， 使 用 线性 对 数 级 别 的 时 间 和 对 数 级 别 的 额外 空间 随机 打 乱 一 条 
链表 。 

倒置 。 编 写 一 个 线性 对 数 级 别 的 算法 统计 给 定数 组 中 的 “倒置 "数量 ( 即 插入 排序 所 需 的 交换 次 数 ， 
请 见 2.1 节 ) 。 这 个 数量 和 Kendall tau 距离 有 关 ， 请 见 2.5 节 。 

间接 排序 。 编 写 一 个 不 改变 数组 的 归并 排序 ， 它 返回 一 个 int[] 数组 perm， 其 中 perm[i] 的 
值 是 原 数组 中 第 i 小 的 元 素 的 位 置 。 

一 式 三 份 。 给 定 三 个 列表 ， 每 个 列表 中 包含 N 个 名 字 ， 编 写 一 个 线性 对 数 级 别 的 算法 来 判定 三 
份 列表 中 是 否 含有 公共 的 名 字 ， 如 果 有 ， 返 回 第 一 个 被 找到 的 这 种 名 字 。 

三 向 归并 排序 。 假 设 每 次 我 们 是 把 数组 分 成 三 个 部 分 而 不 是 两 个 部 分 并 将 它们 分 别 排序 ， 然 后 
进行 三 向 归并 。 这 种 算法 的 运行 时 间 的 增长 数量 级 是 多 少 ? 


图 实验 十 


2.2.23 


2.2.24 


2.2.25 


2.2.26 


2.2.27 


2.2.28 


2.2.29 


改进 。 用 实验 评估 正文 中 所 提 到 的 归并 排序 的 三 项 改进 ( 请 见 练习 2.2.11 ) 的 效果 ， 并 比较 正文 
中 实现 的 归并 和 练习 2.2.10 所 实现 的 归并 之 间 的 性 能 。 根 据 经 验 给 出 应 该 在 何 时 为 子 数 组 切换 
到 插入 排序 。 

改进 的 有 序 测试 。 在 实验 中 用 大 型 随机 数组 评估 练习 2.2.8 所 做 的 修改 的 效果 。 根据 经 验 用 N( 被 
排序 的 原始 数组 的 大 小 ) 的 函数 描述 条 件 语 句 (a[mid] < =a[mid+1] ) 成 立 (无 论 数组 是 否 有 序 ) 
的 平均 次 数 。 

多 向 归并 排序 。 实 现 一 个 上 向 ( 相对 双向 而 言 ) 归并 排序 程序 。 分 析 你 的 算法 ， 估 计 最 佳 的 大 
值 并 通过 实验 验证 猜想 。 

创建 数组 。 使 用 SortCompare 粗略 比较 在 你 的 计算 机 上 在 mergeC 中 和 在 sort() 中 创建 
aux[] 的 性 能 差异 。 

子 数组 长 度 。 用 归并 将 大 型 随机 数组 排序 ， 根 据 经 验 用 N ( 某 次 归并 时 两 个 子 数组 的 长 度 之 和 ) 
的 函数 估计 当 一 个 子 数组 用 尽 时 另 一 个 子 数组 的 平均 长 度 。 

自 顶 向 下 与 自 底 向 上 。 对 于 N=10 、10*、10* 和 10*， 使 用 SortCompare 比较 自 顶 向 下 和 自 底 向 
上 的 归并 排序 的 性 能 。 

自然 的 归并 排序 。 对 于 N=10*、10' 和 10”， 类 型 为 Long 的 随机 主键 数组 ， 根 据 经 验 给 出 自然 的 
归并 排序 ( 请 见 练习 2.2.16 ) 所 需要 的 遍 数 。 提 示 : 不 需要 实现 这 个 排序 ( 甚至 不 需要 生成 所 有 
完整 的 64 位 主键 ) 也 能 完成 这 道 练 习 。 
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2.3 ”快速 排序 


本 节 的 主题 是 快速 排序 , 它 可 能 是 应 用 最 广泛 的 排序 算法 了 。 快速 排序 流行 的 原因 是 它 实现 简单 、 
适用 于 各 种 不 同 的 输入 数据 且 在 一 般 应 用 中 比 其 他 排序 算法 都 要 快 得 多 。 快 速 排序 引 人 注 目的 特点 包 
括 它 是 原 地 排序 ( 只 需要 一 个 很 小 的 辅助 栈 ) ， 且 将 长 度 为 N 的 数组 排序 所 需 的 时 间 和 MgN 成 正比 。 
我 们 已 经 学 习 过 的 排序 算法 都 无 法 将 这 两 个 优点 结合 起 来 。 另 外 ， 快 速 排序 的 内 循环 比 大 多 数 排序 算 
法 都 要 短小 ， 这 意味 着 它 无 论 是 在 理论 上 还 是 在 实际 中 都 要 更 快 。 它 的 主要 缺点 是 非常 脆弱 ， 在 实现 
时 要 非常 小 心 才能 避免 低劣 的 性 能 。 已 经 有 无 数 例子 显示 许多 种 错误 都 能 致使 它 在 实际 中 的 性 能 只 
有 平方 级 别 。 幸 好 我 们 将 会 看 到 ， 由 这 些 错误 中 学 到 的 教训 也 大 大 改进 了 快速 排序 算法 ， 使 它 的 应 
用 更 加 广泛 。 


2.3.1 基本 算法 

快速 排序 是 一 种 分 治 的 排序 算法 。 它 将 一 个 数组 分 成 两 个 子 数组 ， 将 两 部 分 独立 地 排序 。 快 速 排 
序 和 归并 排序 是 互补 的 : 归并 排序 将 数组 分 成 两 个 子 数组 分 别 排序 ， 并 将 有 序 的 子 数组 归并 以 将 整个 
数组 排序 ;而 快速 排序 将 数组 排序 的 方式 则 是 当 两 个 子 数组 都 有 序 时 整个 数组 也 就 自然 有 序 了 。 在 第 
一 种 情况 中 ,递归 调用 发 生 在 处 理 整个 数组 之 前 ; 在 第 二 种 情况 中 ,递归 调用 发 生 在 处 理 整个 数组 之 后 。 
在 归并 排序 中 ,一 个 数组 被 等 分 为 两 半 ; 在 快速 排序 中 ， 切 分 ( partition ) 的 位 置 取决 于 数组 的 内 容 。 
快速 排序 的 大 致 过 程 如 图 2.3.1 所 示 。 


输入 QUICK SORTEXAMPLE 
打 乱 K 人 
切 分 元 素 


切 分 ECAIEKLPUTMQRX0S 


不 大 于 不 小 于 
将 左 半 部 分 排序 A C E EI 
将 右 半 部 分 排序 LNMOPQRSTUX 
结果 ACE EIKLNMOPQRSTWU Xx 


图 2.3.1 快速 排序 示意 图 
快速 排序 的 实现 过 程 如 算法 2.5 所 示 。 
算法 2.5 快速 排序 


public class Quick 
{ 





public static void sort(Comparable[] a) 
{ 


StdRandom. shuffle(a); // 消除 对 输入 的 依 圳 
sort(a, 0, a.length - 1); 


private static void sort(Comparable[] a, int 1o, int hi) 


if (hi <= 10) return; 

int j = partition(a，1o， hi); // 切 分 (请 见 “ 快 速 排序 的 切 分 ”) 
sort(a，10o，j-1); // 将 左 站 部 分 a[10 .。j-1] 排 序 
sort(a, j+1, hi); // 将 右 丰 部 分 a[j+1 . 。h 订 排序 
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快速 排序 递归 地 将 子 数组 ar1o. .hi] 排序 ， 先 用 partition() 方法 将 a[j] 放 到 一 个 合适 位 置 ， 然 
后 再 用 递归 调用 将 其 他 位 置 的 元 素 排序 。 








lo jhi 01234567 8 9101112131415 
初始 值 QUICK SORTE XAMPLE 
随机 打 乱 KRATELEPUIMQCX0S 

0 515 ECAIEKLPUTNMQRX05S 

0 3% ECAEL x 

0 2 2 ACE 

0 0 1 AC 

C 
I 
Hys LPUTMQRXOS 
大 小 为 1 的 子 7 9 15 MOPTQARXUS 
数组 不 需要 7 7 8 M 0 
继续 切 分 NA 0 

10 13 15 SQRTUX 

10 12 12 R Q S 

10 11 11 QR 

Q 
14 14 15 Ux 
和 
结果 ACEEIKLMOPQORSTUX 89] 














该 方法 的 关键 在 于 切 分 ， 这 个 过 程 使 得 数组 满足 下 面 三 个 条 件 

口 对 于 某 个 j，a[j] 已 经 排 定 

口 a[10] 到 a[j-1] 中 的 所 有 元 素 都 不 大 于 a[j]; 

口 a[j+1] 到 a[hi] 中 的 所 有 元 素 都 不 小 于 a[j]。 

我 们 就 是 通过 递归 地 调用 切 分 来 排序 的 。 

因为 切 分 过 程 总 是 能 排 定 一 个 元 素 ， 用 归纳 法 不 难 证 明 递归 能 够 正确 地 将 数组 排序 : 如 果 左 子 
数组 和 右 子 数组 都 是 有 序 的 ， 那 么 由 左 子 数组 ( 有 序 且 没有 任何 元 素 大 于 切 分 元 素 ) 、 切 分 元 素 和 
右 子 数组 (有 序 且 没 有 任何 元 素 小 于 切 分 元 素 ) 组 成 的 结果 数组 也 一 定 是 有 序 的 。 算 法 2.5 就 是 实 
现 了 这 个 思路 的 一 个 递归 程序 。 它 是 一 个 随机 化 的 算法 ， 因 为 它 在 将 数组 排序 之 前 会 将 其 随机 打 乱 。 
我 们 这 么 做 的 原因 是 希望 能 够 预测 ( 并 依赖 ) 该 算法 的 性 能 特性 ， 之 后 我 们 会 详细 讨论 。 

要 完成 这 个 实现 ， 需 要 实现 切 分 方法 。 一 般 策略 是 先 站 
随意 地 取 a[1o] 作为 切 分 元 素 , 即 那个 将 会 被 排 定 的 元 素 ，。 切 分 前 M[ 
然后 我 们 从 数组 的 左 端 开始 向 右 扫描 直到 找到 一 个 大 于 等 To 遇 
于 它 的 元 素 ， 再 从 数组 的 右 端 开始 向 左 扫描 直到 找到 一 个 。 切 分 中 性 V 贞 
小 于 等 于 它 的 元 素 。 这 两 个 元 素 显然 是 没有 排 定 的 ， 因 此 
我 们 交换 它们 的 位 置 。 如 此 继续 ， 我 们 就 可 以 保证 左 指针 -一 
1 的 左 侧 元 素 都 不 大 于 切 分 元 素 ， 右 指针 j 的 右 侧 元 素 都 es 
不 小 于 切 分 元 素 。 当 两 个 指针 相遇 时 ， 我 们 只 需要 将 切 分 
元 素 a[10] 和 左 子 数组 最 右 侧 的 元 素 (arj] ) 交换 然后 返 。 图 2.3.2 快速 排序 的 切 分 示意 图 
回 j 即 可 。 切 分 方法 的 大 至 过程 如 图 2.3.2 所 示 。 

这 段 快速 排序 的 实现 代码 中 还 有 儿 个 细节 问题 值得 一 提 ， 因 为 它们 都 可 能 导致 实现 错误 或 是 影响 
性 能 ， 我 们 会 在 下 面 讨论 。 本 节 稍 后 我 们 会 研究 算法 的 三 个 高 层次 的 改进 。 250 
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快速 排序 的 切 分 的 实现 如 下 所 示 。 
快速 排序 的 切 分 


private static int partition(Comparable[] a, int 1o，int hi) 
{ // 将 数组 切 分 为 a[10. .1-1]，a[i]，a[i+1. .hi] 
int 1 = 10, j = hisl; // 左右 扫描 指针 
Comparable v = a[lo]; // 切 分 元 素 
while (true) 
{ // 扫描 左 右 ， 检 查 扫描 是 否 结束 并 交接 元 素 
while (lessCa[++i], v)) if (i == hi) break; 
while (less(v, a[--j])) if (j == 10) break; 
if Gi >= j) break; 
exch(a, i, H); 








} 
exch(a, 10, 1); // 将 v = a[j] 放 入 正确 的 位 置 
return ji 1/ af1o..j-1] <= a[j] <= a[j+1..hi] 达成 


? 


这 段 代码 按照 a[1o] 的 值 v 进行 切 分 。 当 指针 1 和 j 相遇 时 主 循环 退出 。 在 循环 中 ，a[i] 小 于 v 时 
我 们 增 大 1，a[j] 大 于 v 时 我 们 减 小 j， 然 后 交换 a[i] 和 a[j] 来 保证 ; 左 侧 的 元 素 都 不 大 于 v，j 右 侧 
的 元 素 都 不 小 于 v。 当 指针 相遇 时 交换 a[1o] 和 a[j] ， 切 分 结束 (这样 切 分 值 就 留 在 arj] 中 了 ) 。 

v, a[] 
ijNol2345678 9101112131415 


初始 值 0 16 KK 





RATELEPUIMQCX0S 
扫描 左 、 右 部 分 。 1 12 及 EXoS 
交换 1 12 C R 

扫描 左 、 右 部 分 3 9 AT INMQ 
交换 3 9 I T 
扫描 左 、 右 部 分 5 6 EL EP 
交换 全 6 攻 
扫描 左 、 右 部 分 6 5 EL 
最 后 一 次 交换 5 E Ki 
结果 5 EL ATEREL FO FF HORX0 入 


切 分 轨迹 每 次 交换 前 后 的 数组 内 容 ) 





2.3.1.1 原 地 切 分 

如 果 使 用 一 个 辅助 数组 ， 我 们 可 以 很 容易 实现 切 分 ， 但 将 切 分 后 的 数组 复制 回去 的 开销 也 许 会 
使 我 们 得 不 偿 失 。 一 个 初级 Java 程序 员 甚至 可 能 会 将 空 数 组 创建 在 递归 的 切 分 方法 中 ， 这 会 大 大 降 
低 排序 的 速度 。 
2.3.1.2” 别 越界 

如 果 切 分 元 素 是 数组 中 最 小 或 最 大 的 那个 元 素 ， 我 们 就 要 小 心 别 让 扫描 指针 跑 出 数组 的 边界 。 
partition() 实现 可 进行 明确 的 检测 来 预防 这 种 情况 。 测 试 条 件 (j == 1o ) 是 元 余 的 ， 因 为 切 分 
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元 素 就 是 a[1o] ， 它 不 可 能 比 自己 小 。 数 组 右 端 也 有 相同 的 情况 ， 它 们 都 是 可 以 去 掉 的 〔 请 见 练习 
Eb 
2.3.1.3 ”保持 随机 性 

数组 元 素 的 顺序 是 被 打 乱 过 的 。 因 为 算法 2.5 对 所 有 的 子 数 组 都 一 视 同 仁 ， 它 的 所 有 子 数组 也 
都 是 随机 排序 的 。 这 对 于 预测 算法 的 运行 时 间 很 重要 。 保 持 随 机 性 的 另 一 种 方法 是 在 partition() 
中 随机 选择 一 个 切 分 元 素 。 
2.3.1.4 终止 循环 

有 经 验 的 程序 员 都 知道 保证 循环 结束 需要 格外 小 心 ， 快 速 排序 的 切 分 循环 也 不 例外 。 正 确 地 检 
测 指针 是 否 越界 需要 一 点 技巧 ， 并 不 像 看 上 去 那么 容易 。 一 个 最 常见 的 错误 是 没有 考虑 到 数组 中 可 
能 包含 和 切 分 元 素 的 值 相同 的 其 他 元 素 
2.3.1.5 ”处 理 切 分 元 素 值 有 重复 的 情况 

如 算法 2.5 所 示 ， 左 侧 扫描 最 好 是 在 遇 到 大 于 等 于 切 分 元 素 值 的 元 素 时 停 下 ， 右 侧 扫 描 则 是 遇 
到 小 于 等 于 切 分 元 素 值 的 元 素 时 停 下 。 尽 管 这 样 可 能 会 不 必要 地 将 一 些 等 值 的 元 素 交 换 ， 但 在 某 些 
典型 应 用 中 ， 它 能 够 避免 算法 的 运行 时 间 变 为 平方 级 别 ( 请 见 练习 2.3.11 ) 。 稍 后 我 们 会 讨论 另 一 
种 可 以 更 好 地 处 理 含有 大 量 重复 值 的 数组 的 方法 。 
2.3.1.6 终止 递归 

有 经 验 的 程序 员 还 知道 保证 递归 总 是 能 够 结束 也 是 需要 小 心 的 ， 快 速 排序 也 不 例外 。 例 如 ， 实 
现 快速 排序 时 一 个 常见 的 错误 就 是 不 能 保证 将 切 分 元 素 放 和 正确 的 位 置 ， 从 而 导致 程序 在 切 分 元 素 
正好 是 子 数组 的 最 大 或 是 最 小 元 素 时 陷 人 了 无 限 的 递归 循环 之 中 。 Rn 


2.3.2 ”性 能 特点 


数学 上 已 经 对 快速 排序 进行 了 详尽 的 分 析 ， 因 此 我 们 能 够 精确 地 说 明 它 的 性 能 。 大 量 经 验 也 证 
明了 这 些 分 析 ， 它 们 是 算法 调 优 时 的 重要 工具 。 

快速 排序 切 分 方法 的 内 循环 会 用 一 个 递增 的 索引 将 数组 元 素 和 一 个 定 值 比较 。 这 种 简洁 性 
也 是 快速 排序 的 一 个 优点 ， 很 难 想象 排序 算法 中 还 能 有 比 这 更 短小 的 内 循环 了 。 例 如 ， 归 并 
排序 和 和 希 尔 排序 一 般 都 比 快速 排序 慢 ， 其 原因 就 是 它们 还 在 内 循环 中 移动 数据 。 

快速 排序 另 一 个 速度 优势 在 于 它 的 比较 次 数 很 少 。 排 序 效率 最 终 还 是 依赖 切 分 数组 的 效果 ， 而 
这 依赖 于 切 分 元 素 的 值 。 切 分 将 一 个 较 大 的 随机 数组 分 成 两 个 随机 子 数组 ， 而 实际 上 这 种 分 割 可 能 
发 生 在 数组 的 任意 位 置 (对 于 元 素 不 重复 的 数组 而 言 ) 。 下 面 我 们 来 分 析 这 个 算法 ， 看 看 这 种 方法 
和 理想 方法 之 间 的 差距 。 

快速 排序 的 最 好 情况 是 每 次 都 正好 能 将 数组 对 半分 。 在 这 种 情况 下 快速 排序 所 用 的 比较 次 数 正 
好 满足 分 治 递归 的 Cy=2CwatN 公式 。2Cwa 表示 将 两 个 子 数组 排序 的 成 本 ，N 表示 用 切 分 元 素 和 所 
有 数组 元 素 进行 比较 的 成 本 。 由 归并 排序 的 命题 F 的 证 明 可 知 ， 这 个 递归 公式 的 解 Cy-Nlgw。 尽 管 
事情 并 不 总 会 这 么 顺利 ， 但 平均 而 言 切 分 元 素 都 能 落 在 数组 的 中 间 。 将 每 个 切 分 位 置 的 概率 都 考虑 
进去 只 会 使 递归 更 加 复杂 、 更 难 解决 ， 但 最 终结 果 还 是 类 似 的 。 我 们 对 快速 排序 的 信心 来 自 于 这 个 
结论 的 证 明 。 如 果 你 不 喜欢 数学 公式 ， 可 以 跳 过 这 个 证 明 ， 相 信 它 即 可 ; 如 果 你 喜欢 ， 你 会 发 现 它 
很 有 趣 。 
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命题 K。 将 长 度 为 入 的 无 重复 数组 排序 ,快速 排序 平均 需要 ~2NInN 次 比较 ( 以 及 1/6 的 交换 ) 。 


证 明 。 令 Cy 为 将 入 个 不 同 元 素 排序 平均 所 需 的 比较 次 数 。 显 然 Cj-Ci-0， 对 于 N>1， 由 递归 
程序 可 以 得 到 以 下 归纳 关系 : 
Cw=N+1+(CotCit+Cy ytCy YN+(Cy tCy st+CON 
第 一 项 是 切 分 的 成 本 (总 是 Nt1) ， 第 二 项 是 将 左 子 数组 (长 度 可 能 是 0 到 N-1 ) 排序 的 平均 成 本 ， 
第 三 项 是 将 右 子 数组 ( 长 度 和 左 子 数组 相同 ) 排 序 的 平均 成 本 。 将 等 式 左右 两 边 乘 以 N 并 整理 各 项 得 到 
NC-N(N+1)+2(Cot Cit- Cy st Cr) 


将 该 等 式 减 去 N-1 时 的 相同 等 式 可 得 : 
。 NCvr(N-DCwi=2N+2Cw， 


整理 等 式 并 将 两 边 除 以 NCN+1) 可 得 : 
CYCN+ED=CwVWNH2CN+ED 


归纳 法 推导 可 得 : 
Cw2(N+HEIDG3+L4+…+UGV+ED) 
括号 内 的 量 是 曲线 2x 下 从 3 到 N 的 离散 近似 面积 加 一 ， 积 分 得 到 Cw-2NnN。 注 意 到 
2MnN= 1.39MgN， 也 就 是 说 平均 比较 次 数 只 比 最 好 情况 多 39%。 
要 得 到 命题 中 的 交换 次 数 需 要 一 个 类 似 ( 但 更 加 复杂 的 ) 分 析 。 


在 实际 应 用 中 ， 当 数组 元 素 可 能 重复 时 ， 精 确 的 分 析 会 相当 复杂 ， 但 不 难 证 明 即 使 存在 重复 的 
元 素 ， 平 均 比 较 次 数 也 不 会 大 于 Cy ( 在 2.3.3.3 节 中 我 们 会 改进 快速 排序 在 这 种 情况 下 的 性 能 ) 。 

尽管 快速 排序 有 很 多 优点 ， 它 的 基本 实现 仍 有 一 个 潜在 的 缺点 : 在 切 分 不 平衡 时 这 个 程序 可 能 会 
极为 低 效 。 例 如 ， 如 果 第 一 次 从 最 小 的 元 素 切 分 ， 第 二 次 从 第 二 小 的 元 素 切 分 ， 如 此 这 般 ， 每 次 调用 
只 会 移 除 一 个 元 素 。 这 会 导致 一 个 大 子 数组 需要 切 分 很 多 次 。 我 们 要 在 快速 排序 前 将 数组 随机 排序 的 
主要 原因 就 是 要 避免 这 种 情况 。 它 能 够 使 产生 糟糕 的 切 分 的 可 能 性 降 到 极 低 , 我 们 就 无 需 为 此 担心 了 。 


命题 L。 快 速 排序 最 多 需要 约 Nz/2 次 比较 ， 但 随机 打 乱 数组 能 够 预防 这 种 情况 。 


证 明 。 根 据 刚才 的 证 明 ， 在 每 次 切 分 后 两 个 子 数组 之 一 总 是 空 的 情况 下 ， 比 较 次 数 为 : 
N+(N-1)+HN-2)+…+2+1=(N+1)N/2 

这 不 仅 说 明 算法 所 需 的 时 间 是 平方 级 别 的 ， 也 显示 了 算法 所 需 的 空间 是 线性 的 ， 而 这 对 于 大 数 
组 来 说 是 不 可 接受 的 。 但 是 《经 过 一 些 复 杂 的 工作 ) 通过 扩展 对 一 般 情况 的 分 析 我 们 可 以 得 到 
比较 次 数 的 标准 差 约 为 0.65N。 因 此 ， 随 着 N 的 增 大 ， 运 行 时 间 会 趋 近 于 平均 数 ， 且 不 可 能 与 
平均 数 偏差 太 大 。 例 如 ， 对 于 一 个 有 100 万 个 元 素 的 数组 ， 由 Chebyshev 不 等 式 可 以 粗略 地 估 
计 出 运行 时 间 是 平均 所 需 时 间 的 10 倍 的 概率 小 于 0.000 01 ( 且 真实 的 概率 还 要 小 得 多 ) 。 对 于 
大 数组 ， 运 行 时 间 是 平方 级 别 的 概率 小 到 可 以 忽略 不 计 ( 请 见 练习 2.3.10 ) 。 例 如 ， 快 速 排序 
所 用 的 比较 次 数 和 插入 排序 或 者 选择 排序 一 样 多 的 概率 比 你 的 电脑 在 排序 时 被 闪电 击 中 的 概率 
都 要 小 得 多 ! 
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总 的 来 说 ， 可 以 肯定 的 是 对 于 大 小 为 W 的 数组 ， 算 法 2.5 的 运行 时 间 在 1.39NlgN 的 某 个 常 
数 因 子 的 范围 之 内 。 归 并 排序 也 能 做 到 这 一 点 ， 但 是 快速 排序 一 般 会 更 快 ( 尽管 它 的 比较 次 数 多 
39% ) ， 因 为 它 移动 数据 的 次 数 更 少 。 这 些 保证 都 来 自 于 数学 概率 ， 你 完全 可 以 相信 它 。 


2.3.3 ”算法 改进 

快速 排序 是 由 C.A.R Hoare 在 1960 年 发 明 的 ， 从 那 时 起 就 有 很 多 人 在 研究 并 改进 它 。 改 进 快速 
排序 总 是 那么 吸引 人 ， 发 明 更 快 的 排序 算法 就 好 像 是 计算 机 科学 届 的 “老鼠 夹子 ”， 而 快速 排序 就 是 
夹子 里 的 那 块 奶酪 。 几 乎 从 Hoare 第 一 次 发 表 这 个 算法 开始 ， 人 们 就 不 断 地 提出 各 种 改进 方法 。 并 不 
是 所 有 的 想法 都 可 行 ， 因 为 快速 排序 的 平衡 性 已 经 非常 好 ， 改 进 所 带 来 的 提高 可 能 会 被 意外 的 副作用 
所 抵消 。 但 其 中 一 些 ， 也 是 我 们 现在 要 介绍 的 ， 非 常 有 效 。 295 

如 果 你 的 排序 代码 会 被 执行 很 多 次 或 者 会 被 用 在 大 型 数组 上 ( 特别 是 如 果 它 会 被 发 布 成 一 个 
库 函数 ， 排 序 的 对 象 数组 的 特性 是 未 知 的 ) ， 那 么 下 面 所 讨论 的 这 些 改进 意见 值得 你 参考 。 需 要 注 
意 的 是 ， 你 需要 通过 实验 来 确定 改进 的 效果 并 为 实现 选择 最 佳 的 参数 。 一 般 来 说 它们 能 将 性 能 提升 
20% ~ 30%。 
2.3.3.1 切换 到 插入 排序 

和 大 多 数 递 归 排序 算法 一 样 ， 改 进 快速 排序 性 能 的 一 个 简单 办 法 基于 以 下 两 点 

口 对 于 小 数组 ， 快 速 排序 比 插入 排序 慢 ; 

口 因为 递归 ， 快 速 排序 的 sort() 方法 在 小 数组 中 也 会 调用 自己 。 

因此 ， 在 排序 小 数组 时 应 该 切换 到 插入 排序 。 简 单 地 改动 算法 2.5 就 可 以 做 到 这 一 点 : 将 
sort() 中 的 语句 

if (hi <= 10) return; 

替换 成 下 面 这 条 语句 来 对 小 数组 使 用 插入 排序 ， 

if (hi <= lo + M) { Insertion.sort(a, 10, hi); return; } 

转换 参数 M 的 最 佳 值 是 和 系统 相关 的 ， 但 是 5 ~ 15 之 间 的 任意 值 在 大 多 数 情况 下 都 能 令 人 满 
意 (请 见 练习 2.3.25 ) 。 
2.3.3.2 三 取样 切 分 

改进 快速 排序 性 能 的 第 二 个 办 法 是 使 用 子 数组 的 一 小 部 分 元 素 的 中 位 数 来 切 分 数组 。 这 样 做 得 
到 的 切 分 更 好 ， 但 代价 是 需要 计算 中 位 数 。 人 们 发 现 将 取样 大 小 设 为 3 并 用 大 小 居中 的 元 素 切 分 的 
效果 最 好 (请 见 练习 2.3.18 和 练习 2.3.19 ) 。 我 们 还 可 以 将 取样 元 素 放 在 数组 末尾 作为 “哨兵 ”来 
去 掉 partition() 中 的 数组 边界 测试 。 使 用 三 取样 切 分 的 快速 排序 轨迹 如 图 2.3.3 所 示 。 
2.3.3.3” 炳 最 优 的 排序 

实际 应 用 中 经 常会 出 现 含 有 大 量 重复 元 素 的 数组 ， 例 如 我 们 可 能 需要 将 大 量 人 员 资料 按照 生日 
排序 ， 或 是 按照 性 别 区 分 开 来 。 在 这 些 情况 下 ， 我 们 实现 的 快速 排序 的 性 能 尚 可 ， 但 还 有 巨大 的 改 
进 空间 。 例 如 ， 一 个 元 素 全 部 重复 的 子 数组 就 不 需要 继续 排序 了 ， 但 我 们 的 算法 还 会 继续 将 它 切 分 
为 更 小 的 数组 。 在 有 大 量 重复 元 素 的 情况 下 ， 快 速 排序 的 递归 性 会 使 元 素 全 部 重复 的 子 数组 经 常 出 
现 ， 这 就 有 很 大 的 改进 潜力 ， 将 当前 实现 的 线性 对 数 级 的 性 能 提高 到 线性 级 别 。 296 

一 个 简单 的 想法 是 将 数组 切 分 为 三 部 分 分别 对 应 小 于 、 等 于 和 大 于 切 分 元 素 的 数组 元 素 。 这 
种 切 分 实现 起 来 比 我 们 目前 使 用 的 二 分 法 更 复杂 ， 人 们 为 解决 它 想 出 了 许多 不 同 的 办 法 。 这 也 是 
E. W Dijkstra 的 荷兰 国旗 问题 引发 的 一 道 经 典 的 编程 练习 ， 因 为 这 就 好 像 用 三 种 可 能 的 主键 值 将 数 
组 排序 一 样 ， 这 三 种 主键 值 对 应 着 荷兰 国旗 上 的 三 种 颜色 。 


























188 > 第 2 章 排 序 


输入 Ja lull a pal 
Wo 元 素 






分 的 结果 TURN 








NE 
IN 
大 OnullNbslulunnhltonlll 
a 
tn 
MN 
Wl 
两 个 了 数组。 wm 
都 已 部 分 有 序 
结果 -eeeee anNNNINNNNNNNIINNNIIINNNH 
297 图 2.3.3 使 用 了 三 取样 切 分 和 插入 排序 转换 的 快速 排序 ( 另 见 彩 插 ) 


Dijkstra 的 解法 如 “三 向 切 分 的 快速 排序 ”中 极为 简洁 的 切 分 代码 所 示 。 它 从 左 到 右 遍历 数组 
-次 ， 维 护 一 个 指针 1t 使 得 a[1o. .1t-1] 中 的 元 素 都 小 于 v， 一 个 指针 gt 使 得 a[gt+1. .hi] 中 
的 元 素 都 大 于 v， 一 个 指针 i 使 得 a[1t. .i-1] 中 的 元 素 都 等 于 v，a[i. .gt] 中 的 元 素 都 还 未 确定 ， 
如 图 2.3.4 所 示 。 一 开始 i 和 1o 相等 ， 我 们 使 用 Comparable 接口 ( 而 非 less() ) 对 a[i] 进行 三 


向 比较 来 直接 处 理 以 下 情况 : 
口 a[ 记 小 于 v, 将 a[1t] 和 a[i] 交换 ,将 1t 和 1i 加 一 ; 
口 a[i] 大 于 v, 将 a[gt] 和 a[i] 交换 ,将 gt 减 一 ; 
口 a[ 让 等 于 v, 将 i 加 一 。 


这 些 操作 都 会 保证 数组 元 素 不 变 且 缩小 gt-i 的 值 ( 这 样 循环 才 会 结束 ) 。 另 外 ， 除 非 和 切 分 


元 素 相 等 ， 其 他 元 素 都 会 被 交换 。 
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20 世纪 70 年 代 ， 快 速 排序 发 布 不 久 后 这 段 代 码 。 切 分 前 阿 
就 出 现 了 ， 但 它 并 没有 流行 开 来 ， 因 为 在 数组 中 重复 To 让 
元 素 不 多 的 普通 情况 下 它 比 标准 的 二 分 法 多 使 用 了 很 。 切 分 中 [7 TV TEN 5v 
多 次 交换 。90 年 代 ，J. Bently 和 D. Mcllroy 找到 一 个 六 让 
聪明 的 方法 解决 了 这 个 问题 (请 见 练习 23.22) , 使 js 后 盖 -< 去 
得 三 向 切 分 的 快速 排序 比 归并 排序 和 其 他 排序 方法 在 务 太 中 市 


包括 重复 元 素 很 多 的 实际 应 用 中 更 快 。 之 后 ，J Bently 

和 RR. Sedgewick 证 明了 这 一 点 ， 我 们 会 在 下 面 讨论 。 图 2.3.4 三 向 切 分 的 示意 图 
但 我 们 已 经 证 明 过 归并 排序 是 最 优 的 。 如 何 才能 突破 它 的 下 界 ? 这 个 问题 的 答案 在 于 2.2 节 的 

命题 1 讨论 的 是 对 任意 输入 的 最 差 性 能 ， 而 我 们 目前 在 讨论 时 已 经 知道 输入 数组 的 一 些 信息 了 。 双 

于 含有 以 任意 概率 分 布 的 重复 元 素 的 输入 ， 归 并 排序 无 法 保证 最 佳 性 能 。 258 
三 向 切 分 的 快速 排序 的 实现 如 下 所 示 。 


三 向 切 分 的 快速 排序 


public class Quick3way 


{ 


private static void sort(Comparable[] a, int lo，int hi) 
{。// 调用 此 方法 的 公有 方法 sort() 请 见 算法 2.5 

if (hi <= 10) return; 

int lt = lo, i = lo+1, gt = hi; 

Comparable v = a[1o]; 

while (1 <= gt) 

{ 

int cmp = a[i].compareToCv); 




















if (cmp < 0) exch(a, 1t++, i++); 
else if (cmp > 0) exch(a, i, gt--); 
else tt; 


】 // 现在 a[lo..1t-1] < v = a[1t..gt] < a[gt+1..hi] 成 立 
sort(a, lo, It - DD); 
sort(a, gt + 1, hi); 





} v. a[] 
} it i gt\012345678 9101 
0 0 11 RB WW RWB RRWBR 
这 段 排序 代码 的 切 分 能 够 将 和 切 0 1 11 ReB 订 
分 元 素 相等 的 元 素 归 位 ， 这 样 它们 就 不 1 2 1 RW R 
会 被 包含 在 递归 调用 处 理 的 子 数 组 之 中 3 :入 汤 RR B 
了 。 对 于 存在 大 量 重复 元 素 的 数组 ， 这 1 3 10 R W B 
种 方法 比 标准 的 快速 排序 的 效率 高 得 多 1 3 9 家 
(请 见 正文 ) 。 A se 
三 向 分 切 的 快速 排序 的 可 视 轨迹 。 2 5 8 本 
如 图 2.3.5 所 示 。 7 R R R 
生 和 也 R B R 
3 7 学 R R 
:a R RW 
3 8 7 BBBRRRRRWWW W 











三 向 切 分 的 轨迹 每 次 迭代 循环 之 后 的 数组 内 容 ) 299| 
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图 2.3.5 三 向 切 分 的 快速 排序 的 可 视 轨迹 ( 另 见 彩 插 ) 





例如 ， 对 于 只 有 若干 不 同 主键 的 随机 数组 ， 归 并 排序 的 时 间 复 杂 度 是 线性 对 数 的 ， 而 三 向 切 分 
快速 排序 则 是 线性 的 。 从 上 面 的 可 视 轨迹 就 可 以 看 出 ， 主 键 值 数量 的 N 倍 是 运行 时 间 的 一 个 保守 的 
上 界 。 

这 些 准确 的 结论 来 自 于 对 主键 概率 分 布 的 分 析 。 给 定 包含 上 个 不 同 值 的 N 个 主键 ， 对 于 从 1 到 
大 的 每 个 i， 定义/ 为 第 i 个 主键 值 出 现 的 次 数 ，p, 为 WN， 即 为 随机 抽取 一 个 数组 元 素 时 第 i 个 主 
键 值 出 现 的 概率 。 那 么 所 有 主键 的 香农 信息 量 ( 对 信息 含量 的 一 种 标准 的 度量 方法 ) 可 以 定义 为 ， 

H=-(pilgpit plgpst+ pilgp) 

给 定 任意 一 个 待 排序 的 数组 ， 通 过 统计 每 个 主键 值 出 现 的 频率 就 可 以 计算 出 它 包含 的 信息 量 。 

值得 一 提 的 是 ， 可 以 通过 这 个 信息 量 得 出 三 向 切 分 的 快速 排序 所 需要 的 比较 次 数 的 上 下 界 。 


命题 M。 不 存在 任何 基于 比较 的 排序 算法 能 够 保证 在 NH-N 次 比较 之 内 将 N 个 元 素 排序 ， 其 中 
万 为 由 主键 值 出 现 频率 定义 的 香农 信息 量 


略 证 。 将 2.2 节 的 命题 I 中 下 界 的 证 明 (相对 简单 地 ) 一 般 化 即 可 证 明 该 结论 。 
命题 N。 对 于 大 小 为 入 的 数组 ， 三 向 切 分 的 快速 排序 需要 ~(2In2)NH 次 比较 。 其 中 互 为 由 主键 
值 出 现 频率 定义 的 香农 信息 量 。 


略 证 。 将 命题 KK 中 快速 排序 的 普通 情况 的 分 析 ( 相对 困难 地 ) 通用 化 即 可 证 明 该 结论 。 在 所 有 
主键 都 不 重复 的 情况 下 ， 它 比 最 优 解 所 需 比 较 多 39% ( 但 仍 在 常数 因子 的 范围 之 内 ) 。 


请 注意 ， 当 所 有 的 主键 值 均 不 重复 时 有 H=lgN ( 所 有 主键 的 概率 均 为 IN) ,这 和 2.2 节 的 命 
题 1 以 及 命题 K 是 一 致 的 。 三 向 切 分 的 最 坏 情况 正 是 所 有 主键 均 不 相同 。 当 存在 重复 主键 时 ， 它 的 
性 能 就 会 比 归并 排序 好 得 多 。 更 重要 的 是 ， 这 两 个 性 质 一 起 说 明了 三 向 切 分 是 信息 量 最 优 的 ， 即 对 
于 任意 分 布 的 输入 ， 最 优 的 基于 比较 的 算法 平均 所 需 的 比较 次 数 和 三 向 切 分 的 快速 排序 平均 所 需 的 
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比较 次 数 相 互 处 于 常数 因子 范围 之 内 。 

对 于 标准 的 快速 排序 ， 随 着 数组 规模 的 增 大 其 运行 时 间 会 趋 于 平均 运行 时 间 ， 大 幅 偏离 的 情况 
非常 罕见， 因此 可 以 肯定 三 向 切 分 的 快速 排序 的 运行 时 间 和 输入 的 信息 量 的 N 售 是 成 正比 的 。 在 实 
际 应 用 中 这 个 性 质 很 重要 ， 因 为 对 于 包含 大 量 重复 元 素 的 数组 ， 它 将 排序 时 间 从 线性 对 数 级 降低 到 
了 线性 级 别 。 这 和 元 素 的 排列 顺序 没有 关系 ， 因 为 算法 会 在 排序 之 前 将 其 打 乱 以 避免 最 坏 情况 。 元 
素 的 概率 分 布 决 定 了 信息 量 的 大 小 ， 没 有 基于 比较 的 排序 算法 能 够 用 少 于 信息 量 决定 的 比较 次 数 完 
成 排序 。 这 种 对 重复 元 素 的 适应 性 使 得 三 向 切 分 的 快速 排序 成 为 排序 库 函数 的 最 佳 算法 选择 一 需 
要 将 包含 大 量 重复 元 素 的 数组 排序 的 用 例 很 常见 。 

经 过 精心 调 优 的 快速 排序 在 绝 大 多 数 计算 机 上 的 绝 大 多 数 应 用 中 都 会 比 其 他 基于 比较 的 排序 算 
法 更 快 。 快 速 排序 在 今天 的 计算 机 业界 中 的 广泛 应 用 正 是 因为 我 们 讨论 过 的 数学 模型 说 明了 它 在 实 
际 应 用 中 比 其 他 方法 的 性 能 更 好 ， 而 近 几 十 年 的 大 量 实验 和 经 验 也 证 明了 这 个 结论 。 

在 第 5 章 中 我 们 会 发 现 ， 这 些 并 不 是 快速 排序 发 展 的 终点 ， 因 为 有 人 研究 出 了 完全 不 需要 比较 
的 排序 算法 ! 但 快速 排序 的 另 一 个 版 本 在 那个 环境 下 仍然 是 最 棒 的 ， 和 这 里 一 样 。 


图 答 经 


间 有 没有 将 数组 平分 的 办 法 ， 而 不 是 根据 切 分 元 素 的 最 后 位 置 来 切 分 数组 ? 

答 “这 个 问题 困扰 了 专家 们 十 多 年 。 这 和 用 数组 的 中 位 数 切 分 的 想法 类 似 。 我 们 在 2.5.3.4 节 中 讨论 了 寻 
找 中 位 数 的 问题 。 在 线性 时 间 内 找到 是 可 能 的 ， 但 用 现 有 的 算法 ( 基于 快速 排序 的 切 分 ) ， 这 么 做 
的 代价 远 远 超过 将 数组 平分 而 节省 的 39%。 

间 ”随机 地 将 数组 打 乱 似乎 占 了 排序 用 时 的 一 大 部 分 ， 这么 做 值得 吗 ? 

答 值得。 这 能 够 防止 出 现 最 坏 情况 并 使 运行 时 间 可 以 预计 。Hoare 在 1960 年 提出 这 个 算法 的 时 候 就 推 
荐 了 这 种 方法 一 一 它 是 一 种 ( 也 是 第 一 批 ) 偏爱 随机 性 的 算法 。 

问 为 什么 都 将 注意 力 放 在 重复 元 素 上 ? 

答 这 个 问题 直接 影响 到 实际 应 用 中 的 性 能 。 它 曾 被 忽略 了 数 十 年 ， 结 果 是 一 些 老 的 实现 对 含有 大 量 重 
复元 素 的 数组 排序 时 用 时 超过 平方 级 别 ， 这 在 实际 应 用 中 肯定 出 现 过 。 像 算法 2.5 等 较 好 的 实现 对 
于 这 种 数组 的 复杂 度 是 线性 对 数 级 别 的 ， 但 在 很 多 情况 下 ， 如 本 节 最 后 将 其 改进 为 信息 量 最 佳 的 线 
性 级 别 是 很 值得 的 。 


图 练 


2.3.1 按照 partition() 方法 的 轨迹 的 格式 给 出 该 方法 是 如 何 切 分 数组 EA SYQUESTI0 N 的 。 

2.3.2 按照 本 节 中 快速 排序 所 示 轨迹 的 格式 给 出 快速 排序 是 如 何 将 数组 EASYQUESTION 排 
序 的 ( 出 于 练习 的 目的 ， 可 以 忽略 开头 打 乱 数组 的 部 分 ) 。 

2.3.3 对 于 长 度 为 W 的 数组 ， 在 Quick.sort() 执行 时 ， 其 最 大 的 元 素 最 多 会 被 交换 多 少 次 ? 

2.3.4 ”假如 跳 过 开头 打 乱 数组 的 操作 ， 给 出 六 个 含有 10 个 元 素 的 数组 ， 使 得 Quick.sort() 所 需 的 比较 
次 数 达到 最 坏 情况 。 

2.3.5 给 出 一 段 代码 将 已 知 只 有 两 种 主键 值 的 数组 排序 。 

2.3.6 编写 一 段 代码 来 计算 Cv 的 准确 值 ， 在 N=100、1000 和 10 000 的 情况 下 比较 准确 值 和 估计 值 
2MNinN 的 差距 。 
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2.3.7 在 使 用 快速 排序 将 N 个 不 重复 的 元 素 排序 时 ， 计 算 大 小 为 0、1 和 2 的 子 数组 的 数量 。 如 果 你 喜 
欢 数 学 ， 请 推导 ; 如 果 你 不 喜欢 ， 请 做 一 些 实验 并 提出 猜想 。 

2.3.8 Quick.sort0) 在 处 理 N 个 全 部 重复 的 元 素 时 大 约 需 要 多 少 次 比较 ? 

2.3.9 请 说 明 Quick.sort0) 在 处 理 只 有 两 种 主键 值 的 数组 时 的 行为 ， 以 及 在 处 理 只 有 三 种 主键 值 的 数 
组 时 的 行为 。 

2.3.10 ”Chebyshev 不 等 式 表明 , 一 个 随机 变量 的 标准 差距 离 均值 大 于 大 的 概率 小 于 LE。 对 于 N=100 万 ， 
用 Chebyshev 不 等 式 计算 快速 排序 所 使 用 的 比较 次 数 大 于 1000 亿 次 的 概率 (0.1N* ) 。 

2.3.11 假如 在 遇 到 和 切 分 元 素 重复 的 元 素 时 我 们 继续 扫描 数组 而 不 是 停 下 来 证 明 使 用 这 种 方法 的 快速 
排序 在 处 理 只 有 若干 种 元 素 值 的 数组 时 的 运行 时 间 是 平方 级 别 的 。 

2.3.12 ”按照 代码 所 示 轨 迹 的 格式 给 出 信息 量 最 佳 的 快速 排序 第 一 次 是 如 何 切 分 数组 B AB A B A B A 
CADABRA 的 。 

2.3.13 在 最 佳 、 平 均 和 最 坏 情况 下 ， 快 速 排序 的 递归 深度 分 别 是 多 少 ? 这 决定 了 系统 为 了 追踪 递归 调 
用 所 需 的 栈 的 大 小 。 在 最 坏 情况 下 保证 递归 深度 为 数组 大 小 的 对 数 级 的 方法 请 见 练习 2.3.20。 

2.3.14 证 明 在 用 快速 排序 处 理 大 小 为 N 的 不 重复 数组 时 ， 比 较 第 i 大 和 第 j 大 元 素 的 概率 为 2/j-i)， 并 
用 该 结论 证 明 命题 K。 


图 提高 是 








305 








2.3.15 ”螺丝 和 螺 避 。(G. 械 E. Rawlins) 假设 有 N 个 螺丝 和 N 个 螺 帽 混在 一 堆 ， 你 需要 快速 将 它们 配对 。 
一 个 螺丝 只 会 匹配 一 个 螺 帽 ， 一 个 螺 帽 也 只 会 匹配 一 个 螺丝 。 你 可 以 试 着 把 一 个 螺丝 和 一 个 螺 
帽 拧 在 一 起 看 看 谁 大 了 ， 但 不 能 直接 比较 两 个 螺丝 或 者 两 个 螺 帽 。 给 出 一 个 解决 这 个 问题 的 有 
效 方法 。 

2.3.16 最 佳 情况 ”编写 一 段 程序 来 生成 使 算法 2.5 中 的 sortQ 方法 表现 最 佳 的 数组 ( 无 重复 元 素 ) : 
数组 大 小 为 N 且 不 包含 重复 元 素 ， 每 次 切 分 后 两 个 子 数组 的 大 小 最 多 差 1 ( 子 数组 的 大 小 与 仿 
及 个 相同 元 素 的 数组 的 切 分 情况 相同 )。( 对 于 这 道 练习 , 我们 不 需要 在 排序 开始 时 打 乱 数组 。) 
以 下 练习 描述 了 快速 排序 的 几 个 变 体 。 它 们 每 个 都 需要 分 别 实现 ， 但 你 也 很 自然 地 希望 使 用 
SortCompare 进行 实验 来 评估 每 种 改动 的 效果 。 

2.3.17 哨兵。 修改 算法 2.5， 去 掉 内 循环 while 中 的 边界 检查 。 由 于 切 分 元 素 本 身 就 是 一 个 哨兵 (v 不 
可 能 小 于 a[1o] ) ， 左 侧 边界 的 检查 是 多 余 的 。 要 去 掉 另 一 个 检查 ， 可 以 在 打 乱 数组 后 将 数组 的 
最 大 元 素 放 在 a[length-1] 中 。 该 元 素 永远 不 会 移动 ( 除非 和 相等 的 元 素 交 换 ) ， 可 以 在 所 有 
包含 它 的 子 数组 中 成 为 哨兵 。 注 意 : 在 处 理 内 部 子 数组 时 ， 右 子 数组 中 最 左 侧 的 元 素 可 以 作为 
左 子 数组 右边 界 的 哨兵 。 

2.3.18 三 取样 切 分 。 为 快速 排序 实现 正文 所 述 的 三 取样 切 分 ( 参见 2.3.3.2 节 ) 。 运 行 双 倍 测试 来 确认 
这 项 改动 的 效果 。 

2.3.19 五 取样 切 分 。 实 现 一 种 基于 随机 抽取 子 数组 中 5 个 元 素 并 取 中 位 数 进行 切 分 的 快速 排序 。 将 取 
样 元 素 放 在 数组 的 一 侧 以 保证 只 有 中 位 数 元 素 参 与 了 切 分 。 运 行 双 倍 测试 来 确定 这 项 改动 的 效 
果 ， 并 和 标准 的 快速 排序 以 及 三 取样 切 分 的 快速 排序 ( 请 见 上 一 道 练习 ) 进行 比较 。 附 加 题 : 
找到 一 种 对 于 任意 输入 都 只 需要 少 于 7 次 比较 的 五 取样 算法 。 

2.3.20 ” 非 递 归 的 快速 排序 。 实 现 一 个 非 递归 的 快速 排序 ， 使 用 一 个 循环 来 将 弹出 栈 的 子 数 组 切 分 并 将 结 
果子 数组 重新 压 人 栈 。 注 意 : 先 将 较 大 的 子 数 组 压 和 人 栈 , 这 样 就 可 以 保证 栈 最 多 只 会 有 lgN 个 元 素 。 
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2.3.21 将 重复 元 素 排序 的 比较 次 数 的 下 界 。 完 成 命题 M 的 证 明 的 第 一 部 分 。 参 考 命题 1 的 证 明 并 注意 
当 有 个 主键 值 时 所 有 元 素 存 在 MAIA1.… 有 种 不 同 的 排列 , 其 中 第 个 主键 值 出 现 的 频率 为 扩 ( 即 
Npi， 按照 命题 M 的 记 法 ) ， 且 f+…t=N。 

2.3.22 快速 三 向 切 分 。(J. Benty，D. Mellroy) 用 将 排 库 前世 
重复 元 素 放置 于 子 数组 两 端的 方式 实现 一 个 信息 训 
量 最 优 的 排序 算法 。 使 用 两 个 索引 p 和 q， 使 得 - i = 
ar1o..p-1] 和 a[q+1..hi] 的 元 素 都 和 a[1o] 。 排 让 [= EY 一 
相等 。 使 用 另外 两 个 索引 1 和 j, 使 得 a[p. .i-1] WR wd 









































小 于 a0o]，a[j+i,.q] 大 于 a0o]。 在 内 循环 。 牛人 二 -一 一 
中 加 入 代码 ， 在 ari] 和 v 相当 时 将 其 与 a[p] 交 f 7 
换 (并 将 p 加 1) ,在 a[j] 和 v 相等 且 a[i] 和 图 2.3.6 ”Bently-Mcllroy 三 向 切 分 


a[j] 尚未 和 v 进行 比较 之 前 将 其 与 a[q] 交换 。 
添加 在 切 分 循环 结束 后 将 和 v 相等 的 元 素 交换 到 正确 位 置 的 代码 ， 如 图 2.3.6 所 示 。 请 注意 :这 
里 实现 的 代码 和 正文 中 给 出 的 代码 是 等 价 的 ,因为 这 里 额外 的 交换 用 于 和 切 分 元 素 相等 的 元 素 ， 
而 正文 中 的 代码 将 额外 的 交换 用 于 和 切 分 元 素 不 等 的 元 素 。 
2.3.23 Java 的 排序 库 函 数 。 在 练习 2.3.22 的 代码 中 使 用 Tukey's ninther 方法 来 找 出 切 分 元 素 -选择 三 
组 ， 每 组 三 个 元 素 ， 分别 取 三 组 元 素 的 中 位 数 ， 然 后 取 三 个 中 位 数 的 中 位 数 作为 切 分 元 素 ， 且 
在 排序 小 数组 时 切换 到 插入 排序 。 
2.3.24 取样 排序 。 ( W. Frazer，A. McKellar ) 实现 一 个 快速 排序 ， 取 样 大 小 为 2L_1。 首 先 将 取样 得 到 
的 元 素 排序 ， 然 后 在 递归 函数 中 使 用 样品 的 中 位 数 切 分 。 分 为 两 部 分 的 其 余 样品 元 素 无 需 再 次 
排序 并 可 以 分 别 应 用 于 原 数组 的 两 个 子 数组 。 这 种 算法 被 称 为 取样 排序 。 306| 














图 实验 下 


2.3.25 切换 到 插入 排序 。 实 现 一 个 快速 排序 ， 在 子 数组 元 素 少 于 M 时 切换 到 插入 排序 。 用 快速 排序 处 
理 大 小 入 分 别 为 1、10*、10 和 10' 的 随机 数组 ， 根 据 经 验 给 出 使 其 在 你 的 计算 环境 中 运行 束 
度 最 快 的 M 值 。 将 M 从 0 变化 到 30 的 每 个 值 所 得 到 的 平均 运行 时 间 绘 成 曲线 。 注 意 ， 你 需要 
为 算法 2.2 添加 一 个 需要 三 个 参数 的 sort 0 方法 以 使 Insertion.sort(a，1o，hi) 将 子 数组 
a[1o. .hi] 排序 。 

2.3.26 子 教 组 的 大 小 。 编 写 一 个 程序 ， 在 快速 排序 处 理 大 小 为 的 数组 的 过 程 中 ， 当 子 数组 的 大 小 小 
于 M 时 ， 排 序 方法 需要 切换 为 插入 排序 。 将 子 数组 的 大 小 绘制 成 直方 图 。 用 N=10;，M=10、20 
和 50 测试 你 的 程序 。 

2.3.27 忽略 小 数组 。 用 实验 对 比 以 下 处 理 小 数组 的 方法 和 练习 2.3.25 的 处 理 方法 的 效果 ， 在 快速 排序 
中 直接 忽略 小 数组 ， 仅 在 快速 排序 结束 后 运行 一 次 插入 排序 。 注 意 : 可 以 通过 这 些 实验 估计 出 
电脑 的 缓存 大 小 ， 因 为 当 数 组 大 小 超出 缓存 时 这 种 方法 的 性 能 可 能 会 下 降 。 

2.3.28 递归 深度 。 用 经 验 性 的 研究 估计 切换 阔 值 为 M 的 快速 排序 在 将 大 小 为 N 的 不 重复 数组 排序 时 的 
平均 递归 深度 ， 其 中 M=10、20 和 50，N=10:、10:、10: 和 105。 

2.3.29 随机 化 。 用 经 验 性 的 研究 对 比 随机 选择 切 分 元 素 和 正文 所 述 的 一 开始 就 将 数组 随机 化 这 两 种 策 
略 的 效果 。 在 子 数组 大 小 为 M 时 进行 切换 ,将 大 小 为 N 的 不 重复 数组 排序 ， 其 中 M=10、20 和 
50, N=10"、10*、10’ 和 105。 
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2.3.30 


2.3.31 


极端 情况 。 用 初始 随机 化 和 非 初始 随机 化 的 快速 排序 测试 练习 2.1.35 和 练习 2.1.36 中 描述 的 大 
型 非 随机 数组 。 在 将 这 些 大 数组 排序 时 ， 乱 序 对 快速 排序 的 性 能 有 何 影响 ? 

运行 时 间 直 方 图 。 编 写 一 个 程序 ， 接 受命 令 行 参数 N 和 7， 用 快速 排序 对 大 小 为 N 的 随机 浮 点 
数 数组 进行 了 次 排序 ， 并 将 所 有 运行 时 间 绘制 成 直方 图 。 令 N=10*、10*、10” 和 106， 为 了 使 曲 
线 更 平滑 ，7 值 越 大 越 好 。 这 个 练习 最 关键 的 地 方 在 于 找到 适当 的 比例 绘制 出 实验 结果 。 
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2.4 优先 队列 


许多 应 用 程序 都 需要 处 理 有 序 的 元 素 ， 但 不 一 定 要 求 它 们 全 部 有 序 ， 或 是 不 一 定 要 一 次 就 将 它 
们 排序 。 很 多 情况 下 我 们 会 收集 一 些 元 素 ， 处 理 当前 键 值 最 大 的 元 素 ， 然 后 再 收集 更 多 的 元 素 ， 再 
处 理 当 前 键 值 最 大 的 元 素 ， 如 此 这 般 。 例 如 ， 你 可 能 有 一 台 能 够 同时 运行 多 个 应 用 程序 的 电脑 (或 
者 手机 ) 。 这 是 通过 为 每 个 应 用 程序 的 事件 分 配 一 个 优先 级 ， 并 总 是 处 理 下 一 个 优先 级 最 高 的 事件 
来 实现 的 。 例 如 ， 绝 大 多 数 手 机 分 配给 来 电 的 优先 级 都 会 比 游戏 程序 的 高 。 

在 这 种 情况 下 ， 一 个 合适 的 数据 结构 应 该 支持 两 种 操作 : 删除 最 大 元 素 和 插入 元 素 。 这 种 数据 
类 型 叫做 优先 队列 。 优 先 队 列 的 使 用 和 队列 ( 删除 最 老 的 元 素 ) 以 及 栈 ( 删除 最 新 的 元 素 ) 类 似 ， 
但 高 效 地 实现 它 则 更 有 挑战 性 。 

在 本 节 中 ， 简 单 地 讨论 优先 队列 的 基本 表现 形式 ( 其 一 或 者 两 种 操作 都 能 在 线性 时 间 内 完成 ) 
之 后 ， 我 们 会 学 习 基于 二 又 堆 数据 结构 的 一 种 优先 队列 的 经 典 实现 方法 ， 用 数组 保存 元 素 并 按照 一 
定 条 件 排序 ， 以 实现 高 效 地 ( 对 数 级 别 的 ) 删除 最 大 元 素 和 插入 元 素 操作 。 

优先 队列 的 一 些 重要 的 应 用 场景 包括 模拟 系统 ， 其 中 事件 的 键 即 为 发 生 的 时 间 ， 而 系统 需要 按 
照 时 间 顺 序 处 理 所 有 事件 ;任务 调度 ， 其 中 键 值 对 应 的 优先 级 决定 了 应 该 首先 执行 哪些 任务 ; 数值 
计算 ， 键 值 代表 计算 错误 ， 而 我 们 需要 按照 键 值 指定 的 顺序 来 修正 它们 。 在 第 6 章 中 我 们 会 学 习 一 
个 具体 的 例子 ， 展 示 优先 队列 在 粒子 碰撞 模拟 中 的 应 用 。 

通过 插 和 人 一列 元 素 然后 一 个 个 地 删 掉 其 中 最 小 的 元 素 ， 我 们 可 以 用 优先 队列 实现 排序 算法 。 一 
种 名 为 推 排序 的 重要 排序 算法 也 来 自 于 基于 堆 的 优先 队列 的 实现 。 稍 后 在 本 书 中 我 们 会 学 习 如 何 用 
优先 队列 构造 其 他 算法 。 在 第 4 章 中 我 们 会 看 到 优先 队列 如 何 恰到好处 地 抽象 若干 重要 的 图 搜索 算 
法 ; 在 第 5 章 中 ,我 们 将 使 用 本 节 所 示 的 方法 开发 出 一 种 数据 压缩 算法 。 这 些 只 是 优先 队列 作为 算 
法 设计 工具 所 起 到 的 举足轻重 的 作用 的 一 部 分 例子 。 


2.4.1 API 

优先 队列 是 一 种 抽象 数据 类 型 ( 请 见 1.2 节 ) ， 它 表示 了 一 组 值 和 对 这 些 值 的 操作 ， 它 的 抽 
象 层 使 我 们 能 够 方便 地 将 应 用 程序 ( 用 例 ) 和 我 们 将 在 本 节 中 学 习 的 各 种 具体 实现 隔离 开 来 。 和 
1.2 节 一 样 ， 我 们 会 详细 定义 一 组 应 用 程序 编程 接口 (API ) 来 为 数据 结构 的 用 例 提供 足够 的 信息 
(参见 表 2.4.1 ) 。 优 先 队列 最 重要 的 操作 就 是 删除 最 大 元 素 和 插入 元 素 ， 所 以 我 们 会 把 精力 集中 
在 它们 身上 。 删 除 最 大 元 素 的 方法 名 为 de1Max() ， 插 和 元素 的 方法 名 为 insert() 。 按 照 惯例 ， 
我 们 只 会 通过 辅助 函数 1ess() 来 比较 两 个 元 素 ， 和 排序 算法 一 样 。 如 果 人 允许 重复 元 素 ， 最 大 表示 
的 是 所 有 最 大 元 素 之 一 。 为 了 将 API 定义 完整 ,我 们 还 需要 加 入 构造 函数 ( 和 我 们 在 栈 以 及 队列 
中 使 用 的 类 似 ) 和 一 个 空 队列 测试 方法 。 为 了 保证 灵活 性 ， 我 们 在 实现 中 使 用 了 泛 型 ， 将 实现 了 
Comparable 接口 的 数据 的 类 型 作为 参数 key。 这 使 得 我 们 可 以 不 必 再 区 别 元 素 和 元 素 的 键 ， 对 数 
据 类 型 和 算法 的 描述 也 将 更 加 清晰 和 简洁 。 例 如 , 我 们 将 用 “最 大 元 素 " 代替 “最 大 键 值 "或 是 “ 键 
值 最 大 的 元 素 ”。 

表 2.4.1 泛 型 优先 队列 的 API 
public class MaxpQ<Key extends Comparable<Key>> 


MaxPQC) 创建 一 个 优先 队列 
MaxPQCint max) 创建 一 个 最 大 容量 为 max 的 优先 队列 














308| 








196 第 2 章 排序 








309| 











( 续 ) 
public class MaxPQ<Key extends Comparable<Key>> 
MaxPQ(CKey[] a) 用 a[] 中 的 元 素 创建 一 个 优先 队列 

void Insert(Key v) 向 优先 队列 中 插入 一 个 元 素 

Key maxC) 返回 最 大 元 素 

Key delMax() 删除 并 返回 最 大 元 素 

boolean isEmptyO 返回 队列 是 否 为 空 
int sizeO 返回 优先 队列 中 的 元 素 个 数 





为 了 用 例 代 码 的 方便 ，API 包含 的 三 个 构造 函数 使 得 用 例 可 以 构造 指定 大 小 的 优先 队列 ( 还 可 
以 用 给 定 的 一 个 数组 将 其 初始 化 ) 。 为 了 使 用 例 代码 更 加 清晰 ， 我 们 会 在 适当 的 地 方 使 用 另 一 个 类 
MinPQ。 它 和 MaxPQ 类 似 , 只 是 含有 一 个 de1Min0 方法 来 删除 并 返回 队列 中 键 值 最 小 的 那个 元 素 。 
MaxPQ 的 任意 实现 都 能 很 容易 地 转化 为 MinPQ 的 实现 ， 反 之 亦 然 ， 只 需要 改变 一 下 less() 比较 的 
方向 即 可 。 
优先 队列 的 调用 示例 

为 了 展示 优先 队列 的 抽象 模型 的 价值 ， 考 虑 以 下 问题 : 输入 N 个 字符 串 ， 每 个 字符 串 都 对 映 
着 一 个 整数 ， 你 的 任务 就 是 从 中 找 出 最 大 的 ( 或 是 最 小 的 ) M 个 整数 ( 及 其 关联 的 字符 串 ) 。 这 
些 输入 可 能 是 金融 事务 ， 你 需要 从 中 找 出 最 大 的 那些 ; 或 是 农产品 中 的 杀 虫 剂 含量 ， 这 时 你 需要 从 
中 找 出 最 小 的 那些 ; 或 是 服务 请 求 、 科 学 实验 的 结果 ， 或 是 其 他 应 用 。 在 某 些 应 用 场景 中 ， 输 入 量 
可 能 非常 巨大 ， 甚 至 可 以 认为 输入 是 无 限 的 。 解 决 这 个 问题 的 一 种 方法 是 将 输入 排序 然后 从 中 找 
出 M 个 最 大 的 元 素 , 但 我 们 已 经 说 明 输入 将 会 非常 庞大 。 另 一 种 方法 是 将 每 个 新 的 输入 和 已 知 的 
M 个 最 大 元 素 比较 ,但 除非 M 较 小 ， 否 则 这 种 比较 的 代价 会 非常 高 晶 。 只 要 我 们 能 够 高 效 地 实现 
insert() 和 de1Min()， 下 面 的 优先 队列 用 例 中 调用 了 MinPQ 的 TopM 就 能 使 用 优先 队列 解决 这 个 
问题 ， 这 就 是 本 节 中 我 们 的 目标 。 在 现代 基础 性 计算 环境 中 超大 的 输入 N 非常 常见 ， 这 些 实现 使 我 
们 能 够 解决 以 前 缺乏 足够 资源 去 解决 的 问题 ， 如 表 2.4.2 所 示 。 


表 2.4.2 从 人 个 输入 中 找到 最 大 的 M 个 元 素 所 需 成 本 








示 例 增长 的 数量 级 
时 间 空间 
排序 算法 的 用 例 NiogN N 
调用 初级 实现 的 优先 队列 NM M 
调用 基于 堆 实现 的 优先 队列 MogM M 
一 个 优先 队列 的 用 例 





public class TopM 
€ 
public static void main(String[] args) 
{ // 打印 输入 流 中 最 大 的 MM 
int M = Integer.parseInt(args[0]); 
MinpQ<Transaction> pq = new MinpQ<Transaction>(M+1); 
while (StdIn.hasNextLine()) 
人 AN 为 下 一 行 输入 创建 一 个 元 素 并 放 入 优先 队列 中 
pq.insert(new Transaction(StdIn. readLineO))); 
if (pq-sizeO > MW) 
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pq.delMinO; // 如 果 优先 队列 中 存在 M+1 个 元 素 则 草 除 其 中 最 小 的 元 素 
】 // 最 大 的 M 个 元 素 都 在 优先 队列 中 


Stack<Transaction> stack = new Stack<Transaction>(); 
while (!pq.isEmptyO) stack.push(pq.delMin(O)); 
for (Transaction t : stack) StdOut.print1n(t); 
} 
} 


从 命令 行 输入 一 个 整数 M 以 及 一 系列 字符 串 ， 每 一 行 表示 一 个 事务 。 这 段 代码 调用 了 MinPQ 并 会 
打印 数字 最 大 的 M 行 。 它 用 到 了 Transaction 类 ( 请 见 表 1.2.6， 练 习 1.2.19 和 练习 2.1.21 ) ， 构 造 了 
一 个 用 数字 作为 键 的 优先 队列 。 当 优先 队列 的 大 小 超过 M 时 就 删 掉 其 中 最 小 的 元 素 。 所 有 事务 输入 完毕 
之 后 程序 会 从 优先 队列 中 按 递减 顺序 打印 出 最 大 的 M 个 事务 。 这 段 代码 相当 于 将 所 有 事务 放 入 一 个 栈 ， 遍 
历 栈 以 颠倒 它们 的 顺序 并 按照 增 序 将 它们 打印 出 来 。 


% more tinyBatch. txt 

Turing 6/17/1990 644.08 
vonNeumann 3/26/2002 4121.85 
Dijkstra 8/22/2007 2678.40 
vonNeumann 1/11/1999 4409.74 
Dijkstra 11/18/1995 837.42 





Hoare 5/10/1993 3229.27 
vonNeumann 2/12/1994 4732.35 

Hoare 8/18/1992 4381.21 

Turing 111/2002 6€.10 

Thompson 2/27/2000 4747.08 

Turing 2/11/1991 2156.86 % java TopM 5 < tinyBatch. txt 
Hoare 8/12/2003 1025.70 Thompson 2/27/2000 4747.08 
vonNeunann 10/13/1993 2520.97 vonNeumann 2/12/1994 4732.35 
Dijkstra 。 9/10/2000 708.95 vonNeumann 1/11/1999 4409.74 
Turing 10/12/1993 3532.36 Hoare 8/18/1992 4381.21 
Hoare 2/10/2005 4050.20 vonNeumann 3/26/2002 4121.85 

2.4.2 ”初级 实现 


我 们 在 第 1 章 中 讨论 过 的 4 种 基础 数据 结构 是 实现 优先 队列 的 起 点 。 我 们 可 以 使 用 有 序 或 无 序 
的 数组 或 链表 。 在 队列 较 小 时 ， 大 量 使 用 两 种 主要 操作 之 一 时 ， 或 是 所 操作 元 素 的 顺序 已 知 时 ， 它 
们 十 分 有 用 。 因 为 这 些 实现 相对 简单 ， 我 们 在 这 里 只 给 出 文字 描述 并 将 实现 代码 作为 练习 ( 请 见 练 
习 2.43) 。 
2.4.2.1 数组 实现 《无 序 ) 

或 许 实现 优先 队列 的 最 简单 方法 就 是 基于 2.1 节 中 下 压 栈 的 代码 。insertQ 方法 的 代码 和 栈 
的 push() 方法 完全 一 样 。 要 实现 删除 最 大 元 素 , 我 们 可 以 添加 一 段 类 似 于 选择 排序 的 内 循环 的 代码 ， 
将 最 大 元 素 和 边界 元 素 交换 然后 删除 它 ， 和 我 们 对 栈 的 pop0 方法 的 实现 一 样 。 和 栈 类 似 ,我 们 也 ”55 
可 以 加 入 调整 数组 大 小 的 代码 来 保证 数据 结构 中 至 少 含有 四 分 之 一 的 元 素 而 又 永远 不 会 溢出 。 
2.4.2.2 ”数组 实现 《有 序 ) 

另 一 种 方法 就 是 在 insert 0 方法 中 添加 代码 ， 将 所 有 较 大 的 元 素 向 右边 移动 一 格 以 使 数组 保 
持 有 序 ( 和 插入 排序 一 样 ) 。 这 样 ， 最 大 的 元 素 总 会 在 数组 的 一 边 ， 优 先 队列 的 删除 最 大 元 素 操作 
就 和 栈 的 pop 0) 操作 一 样 了 。 
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2.4.2.3 ”链表 表示 法 

和 刚才 类 似 ， 我们 可 以 用 基于 链表 的 下 压 栈 的 代码 作为 基础 ， 而 后 可 以 选择 修改 pop() 来 找到 
并 返回 最 大 元 素 ， 或 是 修改 push() 来 保证 所 有 元 素 为 送 序 并 用 pop() 来 删除 并 返回 链表 的 首 元 素 
(也 就 是 最 大 的 元 素 ) 。 

使 用 无 序 序列 是 解决 这 个 问题 的 惰性 方法 ,我 们 仅 在 必要 的 时 候 才 会 采取 行动 ( 找 出 最 大 元 素 》 
使 用 有 序 序列 则 是 解决 问题 的 积极 方法 ， 因 为 我 们 会 尽 可 能 未 雨 绸 缪 ( 在 插入 元 素 时 就 保持 列表 有 
序 ) ,使 后 续 操 作 更 高 效 。 

实现 栈 或 是 队列 与 实现 优先 队列 的 最 大 不 同 在 于 对 性 能 的 要 求 。 对 于 栈 和 队列 ， 我 们 的 实现 能 
够 在 常数 时 间 内 完成 所 有 操作 ; 而 对 于 优先 队列 ， 我 们 刚刚 讨论 过 的 所 有 初级 实现 中 ， 插 入 元 素 和 
删除 最 大 元 素 这 两 个 操作 之 一 在 最 坏 情况 下 需要 线性 时 间 来 完成 (如 表 2.4.3 所 示 ) 。 我 们 接 下 来 
要 讨论 的 基于 数据 结构 堆 的 实现 能 够 保证 这 两 种 操作 都 能 更 快 地 执行 。 


表 2.4.3 优先 队列 的 各 种 实现 在 最 坏 情况 下 运行 时 间 的 增长 数量 级 





数据 结构 插入 元 素 删除 最 大 元 素 
有 序数 组 ~ 1 

无 序数 组 1 N 

堆 logN logN 
理想 情况 1 1 


在 一 个 优先 队列 上 执行 的 一 系列 操作 如 表 2.4.4 所 示 。 
表 2.4.4 在 一 个 优先 队列 上 执行 的 一 系列 操作 


操作 参数 。” ”返回 值 。 大 小 内 容 (无 序 ) 内 容 (有 序 》 


插入 元 素 Pp 
插 人 元 素 Q 
插入 元 素 E 
删除 最 大 元 素 Q 
插 人 元 素 X 
插入 元 素 A 
插入 元 素 M 
删除 最 大 元 素 X 
插入 元 素 P 
插入 元 素 L 
插入 元 素 E 
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2.4.3 堆 的 定义 

数据 结构 二 又 堆 能 够 很 好 地 实现 优先 队列 的 基本 操作 。 在 二 叉 堆 的 数组 中 ， 每 个 元 素 都 要 保证 
大 于 等 于 另 两 个 特定 位 置 的 元 素 。 相 应 地 , 这 些 位 置 的 元 素 又 至 少 要 大 于 等 于 数组 中 的 另 两 个 元 素 ， 
以 此 类 推 。 如 果 我 们 将 所 有 元 素 画 成 一 棵 二 叉 树 ， 将 每 个 较 大 元 素 和 两 个 较 小 的 元 素 用 边 连 接 就 可 
以 很 容易 看 出 这 种 结构 。 


定义 。 当 一 棵 二 又 树 的 每 个 结 点 都 大 于 等 于 它 的 两 个 子 结 点 时 ， 它 被 称 为 堆 有 序 。 
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相应 地 ,在 堆 有 序 的 二 叉 树 中 ,每 个 结 点 都 小 于 等 于 它 的 父 结 点 ( 如 果 有 的 话 ), 从 任意 结 点 向 上 ， 
我 们 都 能 得 到 一 列 非 递减 的 元 素 ; 从 任意 结 点 向 下 ， 我 们 都 能 得 到 一 列 非 递增 的 元 素 。 特 别 地 ; 


命题 O。 根 结 点 是 堆 有 序 的 二 又 树 中 的 最 大 结 点 。 
证 明 。 根 据 树 的 性 质 归纳 可 得 。 


二 叉 堆 表示 法 

如 果 我 们 用 指针 来 表示 堆 有 序 的 二 叉 树 ， 那 么 每 个 元 
素 都 需要 三 个 指针 来 找到 它 的 上 下 结 点 ( 父 结 点 和 两 个 子 
结 点 各 需要 一 个 ) 。 但 如 图 2.4.1 所 示 ， 如 果 我 们 使 用 完 
全 二 又 树 ， 表 达 就 会 变 得 特别 方便 。 要 画 出 这 样 一 棵 完全 
二 叉 树 ， 可 以 先 定 下 根 结 点 ， 然 后 一 层 一 层 地 由 上 向 下 、 
从 左 至 右 ， 在 每 个 结 点 的 下 方 连接 两 个 更 小 的 结 点 ， 直 至 
将 N 个 结 点 全 部 连接 完毕 。 完 全 二 又 树 只 用 数组 而 不 需 
要 指针 就 可 以 表示 。 具 体 方法 就 是 将 二 叉 树 的 结 点 按照 层级 顺序 放 人 数组 中 ， 根 结 点 在 位 置 1， 它 
的 子 结 点 在 位 置 2 和 3， 而 子 结 点 的 子 结 点 则 分 别 在 位 置 4、5、6 和 7， 以 此 类 推 。 


图 2.4.1 一 棵 堆 有 序 的 完全 二 又 树 


定义 。 二 又 堆 是 一 组 能 够 用 堆 有 序 的 完全 二 又 树 排序 的 元 素 ， 并 在 数组 中 按照 层级 储存 ( 不 使 
用 数组 的 第 一 个 位 置 ) 。 


(简单 起 见 ， 在 下 文中 我 们 将 二 又 堆 简称 为 堆 ) 在 一 个 堆 中 ,位置 人 的 结 点 的 父 结 点 的 位 置 为 
LW2J， 而 它 的 两 个 子 结 点 的 位 置 则 分 别 为 2k 和 2k+1。 这 样 在 不 使 用 指针 的 情况 下 (我们 在 第 3 章 
中 讨论 二 叉 树 时 会 用 到 它们 ) 我 们 也 可 以 通过 计算 数组 的 索引 在 树 中 上 下 移动 ; 从 a[k] 向 上 一 层 
就 令 k 等 于 k/2， 向 下 一 层 则 令 k 等 于 zk 或 2k+l。 

用 数组 ( 堆 ) 实现 的 完全 二 叉 树 的 结构 是 很 严格 的 ， 但 它 的 灵活 性 已 经 足以 让 我 们 高 效 地 实现 优 
先 队列 。 用 它们 我 们 将 能 实现 对 数 级 别 的 插入 


i 01234 5678 91011 

元 素 和 删除 最 大 元 素 的 操作 。 利 用 在 数组 中 无 ali] - T SRPNOAEIHG 
需 指针 即 可 沿 树 上 下 移动 的 便利 和 以 下 性 质 ， 和 
算法 保证 了 对 数 复杂 度 的 性 能 。 SSN、 

命题 P。 一 棵 大 小 为 入 的 完全 二 又 树 的 "NL 

高 度 为 LlgNJ。 

证 明 。 通 过 归纳 很 容易 可 以 证 明 这 一 点 ， “ 
且 当 入 达到 2 的 军 时 树 的 高 度 会 加 1。 

堆 的 表示 如 图 2.4.2 所 示 。 
2.4.4 堆 的 算法 





我 们 用 长 度 为 N+1 的 私有 数组 pq[] 来 图 2.4.2 堆 的 表示 
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表示 一 个 大 小 为 NN 的 堆 ， 我 们 不 会 private boolean less(int i, int j) 

使 用 pq[0]， 堆 元 素 放 在 pq[1] 至 { return pq[i].compareTo(pq[j]) < 0; } 

pq[N] 中 。 在 排序 算法 中 ， 我 们 只 通 private void exchCint 1, int j) 

过 私有 辅助 函数 less() 和 exchQ 〇 来 { Key t= pq[i]; pq[i = pq[j]; pq[j = t; } 
访问 元 素 ， 但 因为 所 有 的 元 素 都 在 数 

组 pq[] 中 ,我 们 在 2.4.4.2 节 中 会 使 和 

用 更 加 紧凑 的 实现 方式 ， 不 再 将 数组 作为 参数 传递 。 堆 的 操作 会 首先 进行 一 些 简单 的 改动 ， 打 破 堆 
的 状态 , 然后 再 遍历 堆 并 按照 要 求 将 堆 的 状态 恢复 。 我 们 称 这 个 过 程 叫做 堆 的 有 序 化 ( reheapifying ) 。 

堆 实 现 的 比较 和 交换 方法 如 右上 方 的 代码 框 所 示 。 

在 有 序 化 的 过 程 中 我 们 会 遇 到 两 种 情况 。 当 某 个 结 点 的 优先 级 上 升 ( 或 是 在 堆 底 加 入 一 个 新 的 
元 素 ) 时 ， 我 们 需要 由 下 至 上 恢复 堆 的 顺序 。 当 某 个 结 点 的 优先 级 下 降 ( 例如 ， 将 根 结 点 替换 为 一 
个 较 小 的 元 素 ) 时 ， 我 们 需要 由 上 至 下 恢复 堆 的 顺序 。 首 先 ,我 们 会 学 习 如 何 实现 这 两 种 辅助 操作 ， 
然后 再 用 它们 实现 插入 元 素 和 删除 最 大 元 素 的 操作 。 
2.4.4.1 由 下 至 上 的 堆 有 序 化 (上浮 

如 果 堆 的 有 序 状态 因为 某 个 结 点 变 得 比 它 的 父 结 。 private vord sncint 癌 
点 更 大 而 被 打破 ， 那 么 我 们 就 需要 通过 交换 它 和 它 的 
父 结 点 来 修复 堆 。 交 换 后 ， 这 个 结 点 比 它 的 两 个 子 结 
点 都 大 ( 一 个 是 曾经 的 父 结 点 ， 另 一 个 比 它 更 小 , 因 exchCk/2，k 
为 它 是 曾经 父 结 点 的 子 结 点 ) ， 但 这 个 结 点 仍然 可 能 eh 人 1 
比 它 现 在 的 父 结 点 更 大 。 我 们 可 以 一 遍 遍 地 用 同样 的 } 
办 法 恢复 秩序 ， 将 这 个 结 点 不 断 向 上 移动 直到 我 们 遇 
到 了 一 个 更 大 的 父 结 点 。 只 要 记 住 位 置 大 的 结 点 的 父 由 下 至 上 的 全 有 邮 化 (上 泽 ) 的 实现 
结 点 的 位 置 是 Lk2j， 这 个 过 程 实现 起 来 很 简单 。swim() 方法 中 的 循环 可 以 保证 只 有 位 置 上 上 的 结 
点 大 于 它 的 父 结 点 时 堆 的 有 序 状 态 才 会 被 打破 。 因 此 只 要 该 结 点 不 再 大 于 它 的 父 结 点 ， 堆 的 有 序 状 
态 就 恢复 了 。 至 于 方法 名 ， 当 一 个 结 点 太 大 的 时 候 它 需 要 浮 ( swim ) 到 堆 的 更 高 层 。 由 下 至 上 的 堆 
有 序 化 的 实现 代码 如 右上 方 所 示 。 

图 2.4.3 展示 的 是 由 下 至 上 的 堆 有 序 化 示意 图 。 
2.4.4.2 ”由 上 至 下 的 堆 有 序 化 〈 下 沉 ) 

如 果 堆 的 有 序 状态 因为 某 个 结 点 变 得 比 它 的 两 个 子 结 点 或 是 其 中 之 一 更 小 了 而 被 打破 了 ， 那 么 
我 们 可 以 通过 将 它 和 它 的 两 个 子 结 点 中 的 较 大 者 交换 来 恢复 堆 。 交 换 可 能 会 在 子 结 点 处 继续 打破 堆 
的 有 序 状态 ， 因 此 我 们 需要 不 断 地 用 相同 的 方式 将 其 修复 ， 将 结 点 向 下 移动 直到 它 的 子 结 点 都 比 它 
更 小 或 是 到 达 了 堆 的 底部 。 由 位 置 为 上 的 结 点 的 子 结 点 位 于 2k 和 2k+1 可 以 直接 得 到 对 应 的 代码 。 
至 于 方法 名 ， 由 上 至 下 的 堆 有 序 化 的 示意 图 及 实现 代码 分 别 见 图 2.4.4 和 下 页 的 代码 框 。 当 一 个 结 
点 太 小 的 时 候 它 需 要 沉 (sink ) 到 堆 的 更 低层 。 

如 果 我 们 把 堆 想象 成 一 个 严密 的 黑社会 组 织 ， 每 个 子 结 点 都 表示 一 个 下 属 ( 父 结 点 则 表示 它 的 
直接 上 级 ) ， 那 么 这 些 操作 就 可 以 得 到 很 有 趣 的 解释 。swim() 表示 一 个 很 有 能 力 的 新 人 加 入 组 织 
并 被 逐 级 提升 ( 将 能 力 不 够 的 上 级 踩 在 脚下 ) ， 直 到 他 遇 到 了 一 个 更 强 的 领导 。sink() 则 类 似 于 
整个 社团 的 领导 退休 并 被 外 来 者 取代 之 后 ， 如 果 他 的 下 属 比 他 更 厉害 ， 他 们 的 角色 就 会 交换 ， 这 种 
交换 会 持续 下 去 直到 他 的 能 力 比 其 下 属 都 强 为 止 。 这 些 理想 化 的 情景 在 现实 生活 中 可 能 很 罕见 ， 但 
它们 能 够 帮助 你 理解 堆 的 这 些 基本 行为 。 


{ 
while (k > 1 && less(k/2, k)) 
{ 
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sinkCO 和 swimQ 方法 是 高 效 实现 优先 队列 API 的 基础 ， 原 因 如 下 ( 具体 的 实现 请 见 算法 2.6) 。 


非 有 序 状态 
【小 于 子 结 点 ) 


名 © W 
db dE ess So 
| © 乌 


OD (CD 
和 


图 2.4.3 由 下 至 上 的 堆 有 序 化 (上 浮 ) 图 2.4.4 由 上 至 下 的 堆 有 序 化 〈 下 沉 ) 


插入 元 素 。 我 们 将 新 元 素 加 到 数组 末尾 ， 
增加 堆 的 大 小 并 让 这 个 新 元 素 上 浮 到 合适 的 位 






private void sinkCint k) 


置 (如 图 2.4.5 左 半 部 分 所 示 ) 。 f while (2*k <= N) 
删除 最 大 元 素 。 我 们 从 数组 顶端 删 去 最 大 Te 
的 元 素 并 将 数组 的 最 后 一 个 元 素 放 到 顶端 ， 减 if G < N a8 lessCj, j+1)) ji 
小 堆 的 大 小 并 让 这 个 元 素 下 沉 到 合适 的 位 置 (如 hn 
图 2.4.5 右 半 部 分 所 示 ) 。 ki 


算法 2.6 解决 了 我 们 在 本 节 开 始 时 提出 的 一 } 
个 基本 问题 : 它 对 优先 队列 API 的 实现 能 够 保 
证 插入 元 素 和 删除 最 大 元 素 这 两 个 操作 的 用 时 由 上 至 下 的 堆 有 序 化 (下 沉 ) 的 实现 
和 队列 的 大 小 仅 成 对 数 关系 。 
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算法 2.6 基于 堆 的 优先 队列 


public class MaxPQ<key extends Comparable<Key>> 
{ 
private Key[] pq; // 基于 堆 的 完全 控 二 又 树 
private int N = 0; // 存储 于 pq[1. .N] 中 ，pq[0] 没 有 使 用 


public MaxPQCint maxN) 
{ pq = (Key[]) new Comparable[maxN+1]; } 





public boolean isEmptyO) 
{ returnN== 0; } 


public int size() 
{ return N; } 


public void insert(Key v) 


{ 
pq[++N] = v; 
Swim(N); 

} 

public Key delMax() 

€ 
Key max = pq[1]; // 从 根 结 点 得 到 最 大 元 素 
exch(1, N--); // 将 其 和 最 后 一 个 结 点 交换 
pq[N+1] = null; // 防止 越界 
sink(1); // 恢复 堆 的 有 序 性 
return max; 

2 


// 辅助 方法 的 实现 请 见 本 节 前 面 的 代码 框 
private boolean less(int i, int j) 
private void exch(Cint i, int j) 
private void swim(int k) 
private void sinkCint k) 

} 


优先 队列 由 一 个 基于 堆 的 完全 二 叉 树 表示 ， 存 储 于 数组 pq[1. .N] 中 ,pq[0] 没有 使 用 。 在 
insert 0 中 , 我 们 将 N 加 一 并 把 新 元 素 添加 在 数组 最 后 , 然后 用 swim() 恢复 堆 的 秩序 。 在 de1MaxQ 中 ， 
我 们 从 pq[1] 中 得 到 需要 返回 的 元 素 , 然后 将 pq[N] 移动 到 pq[1] , 将 N 减 一 并 用 sink 0 恢复 堆 的 秩序 。 
同时 我 们 还 将 不 再 使 用 的 pq[N+1] 设 为 nu11, 以 便 系统 回收 它 所 占用 的 空间 。 和 以 前 一 样 (请 见 1.3 节 ) ， 
这 里 省 略 了 动态 调整 数组 大 小 的 代码 。 其 他 的 构造 函数 请 见 练习 2.4.19。 





命题 Q。 对 于 一 个 全 及 个 元 素 的 基于 堆 的 优先 队列 ,插入 元 素 操作 只 需 不 超过 (1gN+1 ) 次 比较 ， 
删除 最 大 元 素 的 操作 需要 不 超过 21gN 次 比较 。 


证 明 。 由 命题 P 可 知 ， 两 种 操作 都 需要 在 根 结 点 和 堆 底 之 间 移 动 元 素 ， 商人 让 人 
lgN。 对 于 路 径 上 的 每 个 结 点 ， 删 除 最 大 元 素 需要 两 次 比较 (除了 堆 底 元 素 ) ， 一 次 用 来 找 出 较 
大 的 子 结 点 ， 一 次 用 来 确定 该 子 结 点 是 否 需 要 上 浮 。 


对 于 需要 大 量 混杂 的 插入 和 删除 最 大 元 素 操作 的 典型 应 用 来 说 ,命题 Q 意味 着 一 个 重要 的 性 能 
突破 ， 总 结 请 见 表 2.4.3。 使 用 有 序 或 是 无 序数 组 的 优先 队列 的 初级 实现 总 是 需要 线性 时 间 来 完成 其 


中 一 种 操作 ， 但 基于 堆 的 实现 则 能 够 保证 在 对 数 时 间 内 
完成 它们 。 这 种 差别 使 得 我 们 能 够 解决 以 前 无 法 解决 的 
问题 。 
2.4.4.3 多 叉 堆 

基于 用 数组 表示 的 完全 三 叉 树 构造 堆 并 修改 相应 的 
代码 并 不 困难 。 对 于 数组 中 1 至 入 的 入 个 元 素 , 位 置 k 
的 结 点 大 于 等 于 位 于 3k-1、3k 和 3k+1 的 结 点 ， 小 于 等 
于 位 于 L(kr1/3] 的 结 点 。 甚 至 对 于 给 定 的 d， 将 其 修改 
为 任意 的 d 又 树 也 并 不 困难 。 我 们 需要 在 树 高 ( logsN ) 
和 在 每 个 结 点 的 4d 个 子 结 点 找到 最 大 者 的 代价 之 间 找 到 
折 中 ， 这 取决 于 实现 的 细节 以 及 不 同 操作 的 预期 相对 频 
繁 程度 。 

堆 上 的 优先 队列 操作 如 图 2.4.6 所 示 。 
2.4.4.4 ”调整 数组 大 小 

我 们 可 以 添加 一 个 没有 参数 的 构造 函数 ， 在 
insert() 中 添加 将 数组 长 度 加 售 的 代码 ， 在 delMaxO 
中 添加 将 数组 长 度 减 半 的 代码 , 就 像 在 1.3 节 中 的 栈 那样 。 
这 样 ， 算 法 的 用 例 就 无 需 关注 各 种 队列 大 小 的 限制 。 当 
优先 队列 的 数组 大 小 可 以 调整 、 队 列 长 度 可 以 是 任意 值 
时 ， 命 题 Q 指出 的 对 数 时 间 复 杂 度 上 限 就 只 是 针对 一 般 
性 的 队列 长 度 N 而 言 了 (请 见 练习 2.4.22) 。 
2.4.4.5 ”元素 的 不 可 变性 

优先 队列 存储 了 用 例 创建 的 对 象 ， 但 同时 假设 用 例 
代码 不 会 改变 它们 ( 改变 它们 就 可 能 打破 堆 的 有 序 性 ) 。 
我 们 可 以 将 这 个 假设 转化 为 强制 条 件 ， 但 程序 员 通 常 不 
会 这 么 做 ， 因 为 增加 代码 的 复杂 性 会 降低 性 能 。 
2.4.4.6 ”索引 优先 队列 

在 很 多 应 用 中 ， 允 许 用 例 引用 已 经 进入 优先 队列 中 
的 元 素 是 有 必要 的 。 做 到 这 一 点 的 一 种 简单 方法 是 给 每 
个 元 素 一 个 索引 。 另 外 ,一 种 常见 的 情况 是 用 例 已 经 有 
了 总 量 为 的 多 个 元 素 ， 而 且 可 能 还 同时 使 用 了 多 个 
(平行 ) 数组 来 存储 这 些 元 素 的 信息 。 此 时 ， 其 他 无 关 
的 用 例 代码 可 能 已 经 在 使 用 一 个 整数 索引 来 引用 这 些 元 
素 了 。 这 些 考虑 引导 我 们 设计 了 表 2.4.5 中 的 API。 
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图 2.4.6 在 堆 上 的 优先 队列 操作 


表 2.4.5 关联 索引 的 泛 型 优先 队列 的 API 





public class IndexMinPQ<Item extends Comparable<Item>> 





IndexMinPQCint maxN) 


创建 一 个 最 大 容量 为 maxN 的 优先 队列 ， 索 引 的 取 值 范围 
为 0 至 maxN-1 


void insert(int k, Item item) 插入 一 个 元 素 ， 将 它 和 索引 k 相关 联 
void change(int k，Item item) 将 索引 为 k 的 元 素 设 为 item 
boolean contains(Cint k) 是 否 存在 索引 为 k 的 元 素 





204 b> 第 2 章 排 








public class 


IndexMinPQ<Item extends Comparable<Item>> 


( 续 ) 








void delete(Cint k) 删 去 索引 k 及 其 相关 联 的 元 素 
Item min() 返回 最 小 元 素 
int minIndex() 返回 最 小 元 素 的 索引 
int delMinO 删除 最 小 元 素 并 返回 它 的 索引 
319 boolean isEmpty() 优先 队列 是 否 为 空 
320| int_sizeO 优先 队列 中 的 元 素数 量 











理解 这 种 数据 结构 的 一 个 较 好 方法 是 将 它 看 成 一 个 能 够 快速 访问 其 中 最 小 元 素 的 数组 。 事 实 上 
它 还 要 更 好 一 一 它 能 够 快速 访问 数组 的 一 个 特定 子 集中 的 最 小 元 素 ( 指 所 有 被 插入 的 元 素 ) 。 换 句 
话说 ， 可 以 将 名 为 pq 的 IndexMinpQ 类 优先 队列 看 做 数组 pq[0. .N-1] 中 的 一 部 分 元 素 的 代表 。 将 
pq,insertCk，item) 看 做 将 k 加 入 这 个 子 集 并 使 pq[k] = item，pq.changeCk，item) 则 代表 令 
pq[k]=item。 这 两 种 操作 没有 改变 其 他 操作 所 依赖 的 数据 结构 ， 其 中 最 重要 的 就 是 delMinC (删除 
最 小 元 素 并 返回 它 的 索引 ) 和 change()( 改变 数据 结构 中 的 某 个 元 素 的 索引 一 一 即 pq[i]=item ) 。 
这 些 操作 在 许多 应 用 中 都 很 重要 并 且 依赖 于 对 元 素 的 引用 ( 索引 ) 。 练 习 2.4.33 说 明了 如 何 用 较 少 的 
代码 将 算法 2.6 扩 展 为 极 高 效 的 索引 优先 队列 。 一 般 来 说 , 当 堆 发 生变 化 时 ,我 们 会 用 下 沉 ( 元 素 减 小 时 ) 
或 上 浮 (元 素 变 大 时 ) 操作 来 恢复 堆 的 有 序 性 。 在 这 些 操作 中 ,我 们 可 以 用 索引 查找 元 素 。 能 够 定位 
堆 中 的 任意 元 素 也 使 我 们 能 够 在 API 中 加 入 一 个 deleteO 操作 。 


命题 Q ( 续 ) 。 在 一 个 大 小 为 入 的 索引 优先 队列 中 ,插入 元 素 ( insert ) 、 改 变 优先 级 ( change ) 、 
删除 (delete ) 和 删除 最 小 元 素 (remove the minimum ) 操作 所 需 的 比较 次 数 和 log 成 正比 (如 
表 2.4.6 所 示 ) 。 


证 明 。 已 知 堆 中 所 有 路 径 最 长 即 为 ~igN， 从 代码 中 很 容易 得 到 这 个 结论 。 


表 2.4.6 含有 和 个 元 素 的 基于 堆 的 索引 优先 队列 所 有 操作 在 最 坏 情况 下 的 成 本 





操作 比较 次 数 的 增长 数量 级 
insertO logN 
changeO logN 
contains() 1 
deleteO logN 
minC) 1 
minIndex() 1 
delMinO) logN 


这 段 讨论 针对 的 是 找 出 最 小 元 素 的 队列 ;和 以 前 一 样 ， 我 们 也 在 本 书 网 站 上 实现 了 一 个 找 出 最 
大 元 素 的 版 本 IndexMaxPQ。 
2.4.4.7 ”索引 优先 队列 用 例 

下 面 的 用 例 调用 了 IndexMinPQ 的 代码 Mu1tiway 解决 了 多 向 归并 问题 : 它 将 多 个 有 序 的 输入 
流 归并 成 一 个 有 序 的 输出 流 。 许 多 应 用 中 都 会 遇 到 这 个 问题 。 输 入 可 能 来 自 于 多 种 科学 仪器 的 输出 
(按时 间 排序 ) ， 或 是 来 自 多 个 音乐 或 电影 网 站 的 信息 列表 ( 按 名 称 或 艺术 家 名 字 排序 ) ， 或 是 商 
业 交 易 ( 按 账号 或 时 间 排序 ) ， 或 者 其 他 。 如 果 有 足够 的 空间 ， 你 可 以 把 它们 简单 地 读 和 一 个 数组 
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并 排序 ， 但 如 果 用 了 优先 队列 ， 无 论 输入 有 多 长 你 都 可 以 把 它们 全 部 读 入 并 排序 。 321 











使 用 优先 队列 的 多 向 归并 


public class Multiway 
本 
public static void merge(In[] streams) 





int N = streams.length; 
IndexMinPQ<String> pq = new IndexMinpQ<String>(N); 


for (int i = 0; i < N; i++) 
if (!streams[i].isEmptyO)) 
pq.insert(i, streams[i].readStringO)); 


while (!pq.isEmptyO) 
儿 
StdOut.printin(pq.min(O)); 
int i = pq.delMin(); 
if (!streams[i].isEmptyO)) 
pq.insert(i, streams[i].readStringO)); 
} 
} 
public static void main(String[] args) 
int N = args. length; 
In[] streams = new In[N]; 
for (int i = 0; 1 < N; i++) 
Streams[i] = new In(args[i]); 
merge(streams); 
} 
} 
这 段 代 码 调用 了 IndexMinPQ 来 将 作为 命令 行 参数 输入 的 多 行 有 序 字符 串 归并 为 一 行 有 序 的 输出 (请 
见 正文 )。 每 个 输入 流 的 索引 都 关联 着 一 个 元 素 ( 输入 中 的 下 个 字符 串 )。 初 始 化 之 后 , 代码 进入 一 个 循环 ， 
删除 并 打印 出 队列 中 最 小 的 字符 申 ， 然 后 将 该 输入 的 下 一 个 字符 串 添加 为 一 个 元 素 。 为 了 节约 ， 下 面 将 
所 有 的 输出 排 在 了 一 行 一 一 实际 输出 应 该 是 一 个 字符 串 一 行 。 














mo! 
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more m3 .txt % java Multiway ml.txt m2.txt m3.txt 
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2.4.5” 堆 排序 

我 们 可 以 把 任意 优先 队列 变 成 一 种 排序 方法 。 将 所 有 元 素 插 和 人 一 个 查找 最 小 元 素 的 优先 队列 ， 
然后 再 重复 调用 删除 最 小 元 素 的 操作 来 将 它们 按 顺 序 删 去 。 用 无 序数 组 实现 的 优先 队列 这 么 做 相当 
于 进行 一 次 插入 排序 。 用 基于 堆 的 优先 队列 这 样 做 等 同 于 哪 种 排序 ? 一 种 全 新 的 排序 方法 ! 下 面 我 
们 就 用 堆 来 实现 一 种 经 典 而 优雅 的 排序 算法 一 一 堆 排序 。 

堆 排序 可 以 分 为 两 个 阶段 。 在 堆 的 构造 阶段 中 ,我 们 将 原始 数组 重新 组 织 安排 进 一 个 堆 中 ; 然 
后 在 下 沉 排 序 阶段 ， 我 们 从 堆 中 按 递减 顺序 取出 所 有 元 素 并 得 到 排序 结果 。 为 了 和 我 们 已 经 学 习 过 
的 代码 保持 一 致 ， 我 们 将 使 用 一 个 面向 最 大 元 素 的 优先 队列 并 重复 删除 最 大 元 素 。 为 了 排序 的 需要 ， 
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我 们 不 再 将 优先 队列 的 具体 表示 隐藏 ， 并 将 直接 使 用 swimCO) 和 sinkQ 操作 。 这 样 我 们 在 排序 时 
就 可 以 将 需要 排序 的 数组 本 身 作为 堆 ， 因 此 无 需 任何 额外 空间 。 
2.4.5.1 堆 的 构造 

由 和 个 给 定 的 元 素 构造 一 个 堆 有 多 难 ? 我 们 当然 可 以 在 与 MogN 成 正比 的 时 间 内 完成 这 项 任 
务 ， 只 需 从 左 至 右 遍 历数 组 ， 用 swim( 保证 扫描 指针 左 侧 的 所 有 元 素 已 经 是 一 棵 堆 有 序 的 完全 树 
即 可 ， 就 像 连 续 向 优先 队列 中 插入 元 素 一 样 。 一 个 更 聪明 更 高 效 的 办 法 是 从 右 至 左 用 sink() 函数 
构造 子 堆 。 数 组 的 每 个 位 置 都 已 经 是 一 个 子 堆 的 根 结 点 了 ，sink() 对 于 这 些 子 堆 也 适用 。 如 果 一 
个 结 点 的 两 个 子 结 点 都 已 经 是 堆 了 ， 那 么 在 该 结 点 上 调用 sinkQ 可 以 将 它们 变 成 一 个 堆 。 这 个 过 
程 会 递归 地 建立 起 堆 的 秩序 。 开 始 时 我 们 只 需要 扫描 数组 中 的 一 半 元 素 ， 因 为 我 们 可 以 跳 过 大 小 为 
1 的 子 堆 。 最 后 我 们 在 位 置 1 上 调用 sink() 方法 ， 扫 描 结束 。 在 排序 的 第 一 阶段 ， 堆 的 构造 方法 
和 我 们 的 想象 有 所 不 同 , 因为 我 们 的 目标 是 构造 一 个 堆 有 序 的 数组 并 使 最 大 元 素 位 于 数组 的 开头 (次 
大 的 元 素 在 附近 ) 而 非 构造 函数 结束 的 末尾 。 


命题 R。 用 下 沉 操作 由 N 个 元 素 构造 堆 只 需 少 于 2N 次 比较 以 及 少 于 入 次 交换 。 


证 明 。 观 察 可知 ， 构 造 过 程 中 处 理 的 堆 都 较 小 。 例 如 ， 要 构造 一 个 127 个 元 素 的 堆 ， 我 们 会 处 
理 32 个 大 小 为 3 的 堆 ，16 个 大 小 为 7 的 堆 ，8 个 大 小 为 15 的 准 ，4 个 大 小 为 31 的 堆 ，2 个 大 
小 为 63 的 堆 和 1 个 大 小 为 127 的 堆 ， 因 此 《最 坏 情况 下 ) 需要 32x1+ 16x2+8x3+4Xx4+ 
2x5+1x6=120 次 交换 (两 倍 于 比较 ) 。 完 整 证 明 请 见 练习 2.4.20。 








推 排序 的 实现 过 程 如 算法 2.7 所 示 。 
算法 2.7 ” 堆 排序 
public static void a[i] 
sort(Comparable[] a) Nk ol234567 8 91011 
{ Se 初始 值 5S RTEXANWPLE 
int N = a.length; 11 5 本 闪失 
er Cint k = N/2; k >= 1; a 和 
sinkCa, k, N); 11 3 Kk RA 
while CN > 1) 锋 < 到 TxPL M 0 
{ 3 二 和 RA 
bet 4 i 堆 有 序 xXTSPLRAMOEE 
} 10 1 TPSOoOL ME x 
9 1 SPpR EA T 
这 段 代 码 用 sinkQ 方法 将 a[1] 到 和 = E A NS 
a[N] 的 元 素 排序 ( sink() 被 修改 过 ， 以 区 EE Ee 
s 6 1 0 ME AL p 
a[] 和 N 作 为 参数 ) 。for 循环 构造 了 堆 ， 5 1 NLEAEbD 
然后 while 循环 将 最 大 的 元 素 a[1] 和 ri, EE i 
a[N] 交换 并 修复 了 堆 ， 如 此 重复 直到 堆 变 3 1 EA EM 
空 。 将 exch() 和 less0) 的 实现 中 的 索 3 EAR 
引 减 一 即 可 得 到 和 其 他 排序 算法 一 致 的 实 :TE AE 
现 (将 a[0] 至 a[N-1] 排序 ) 。 堆 排序 排序 结果 MEL MD NT x 


共 伯 消 各 未 者 用 中 芝 并 因 2 有 7 中 堆 排序 的 轨迹 每 次 下 沉 后 的 数组 内 容 ) 
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堆 的 构造 下 沉 排序 
hd § ~ 
og o 


。 


CH oi 
者 COE 
sink(4, 11) oh 10) hd i 





(B) 人 @ © © 
初始 状态 《任意 顺序 ) 初始 状态 ( 堆 有 序 ) 


， ， 了 
sinkC5, 11) hd 于 










sinktl, 9; 





人 L 
ke 
sink(3，11) SS » hE » 3 © 
inkCl, 8 sinkC1, 2 
风 "A a ci 
@) 人 DD © 
@s 
i a B® Ht:3 © 
0! OO 内 E 
(Pp) ol OO 避 
WO R 
hg ， 了 7 1 
sinkG，10 人 Bi 3 © EE 只 
QQ I o, 4 SM 50 7pP 
9 
结果 (已 排序 ) 
结果 ( 堆 有 序 ) 
图 2.4.7 堆 排序 : 堆 的 构造 ( 左 ) 和 下 沉 排序 ( 右 ) 325| 














2.4.5.2 下 沉 排序 

堆 排序 的 主要 工作 都 是 在 第 二 阶段 完成 的 。 这 里 我 们 将 堆 中 的 最 大 元 素 删除 ， 然 后 放 人 堆 缩 小 
后 数组 中 空 出 的 位 置 。 这 个 过 程 和 选择 排序 有 些 类 似 (按照 降序 而 非 升 序 取出 所 有 元 素 ) ， 但 所 需 
的 比较 要 少 得 多 ， 因 为 堆 提供 了 一 种 从 未 排序 部 分 找到 最 大 元 素 的 有 效 方法 。 
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命题 S。 将 N 个 元 素 排 序 ， 雁 排序 只 需 少 于 ( 2NIgN 给 和 一 ali 
4+2N) 次 比较 (以 及 一 半 次 数 的 交换 ) 。 
证 明 。2N 项 来 自 于 堆 的 构造 ( 见 命题 RR) 。 [I 
2NIgN 项 来 自 于 每 次 下 沉 操作 最 大 可 能 需要 21gN | 
次 比较 ( 见 命题 P 与 命题 Q) 。 Wiliam 
堆 有 序 一 

算法 2.7 完整 地 实现 了 这 些 思想 ， 也 就 是 经 典 的 人 
堆 排序 算法 。 它 的 发 明 人 是 J 了 .W.J Williams, 并 由 R. W. 是 下 沉 的 元 素 
Floyd 在 1964 年 改进 。 尽 管 这 段 程序 中 循环 的 任务 各 IT 1 A 
不 同 (第 一 段 循环 构造 堆 ， 第 二 段 循环 在 下 沉 排序 中 
销毁 堆 ) ， 它 们 都 是 基于 sink0) 方法 。 我 们 将 该 实 Mi 
现 和 优先 队列 的 API 独立 开 来 是 为 了 突出 这 个 排序 算 Ba un 
法 的 简洁 性 ( sort 0 方法 只 需 8 行 代码 ，sink() 函 1101 rl 
数 8 行 ) ， 并 使 其 可 以 拒 入 其 他 代码 之 中 。 站 


和 以 前 一 样 , 通过 研究 可 视 轨迹 ( 如 图 2.4.8 所 示 ) 


我 们 可 以 深入 了 解 算法 的 操作 。 一 开始 算法 的 行为 似 I 昨天 和 入 
乎 杂乱 无 章 ， 因 为 随 着 堆 的 构建 较 大 的 元 素 都 被 移动 li 
到 了 数组 的 开头 ， 但 接 下 来 算法 的 行为 看 起 来 就 和 选 Wi 
择 排 序 一 模 一 样 了 ( 除了 它 比较 的 次 数 少 得 多 ) Minnel 
和 我 们 学 过 的 其 他 算法 一 样 ， 很 多 人 都 研究 过 许 om 


多 改进 基于 堆 的 优先 队列 的 实现 和 堆 排序 的 方法 。 我 
们 这 里 简要 地 看 看 其 中 之 一 。 
2.4.5.3 先 下 沉 后 上 浮 

大 多 数 在 下 沉 排序 期 间 重新 插入 堆 的 元 素 会 被 直 
接 加 入 到 堆 底 。Floyd 在 1964 年 观察 发 现 ， 我 们 正 
好 可 以 通过 免 去 检查 元 素 是 否 到 达 正 确 位 置 来 节省 时 
间 。 在 下 沉 中 总 是 直接 提升 较 大 的 子 结 点 直至 到 达 堆 A 
底 ， 然 后 再 使 元 素 上 学 到 正确 的 位 置 。 这 个 想法 几乎 
可 以 将 比较 次 数 减少 一 半 一 接近 了 归并 排序 所 需 的 
比较 次 数 ( 随机 数组 )。 这 种 方法 需要 额外 的 空间 ， i 
因此 在 实际 应 用 中 只 有 当 比 较 操作 代价 较 高 时 才 有 用 如 “， 

( 例如 ， 当 我 们 在 将 字符 串 或 者 其 他 刍 值 较 长 类 型 的 。。。 纺 果 一 -ees 川中 | 
元 素 进行 排序 时 ) 。 

堆 排序 在 排序 复杂 性 的 研究 中 有 着 重要 的 地 位 ，。。 图 248 扒 排 序 的 可 视 轨迹 〈 另 见 彩 揪 ) 
因为 它 是 我 们 所 知 的 唯一 能 够 同时 最 优 地 利用 空间 和 时 间 的 方法 一 “在 最 坏 的 情况 下 它 也 能 保证 使 
用 ~ 2MgN 次 比较 和 恒定 的 额外 空间 。 当 空间 十 分 紧张 的 时 候 ( 例如 在 小 入 式 系统 或 低 成 本 的 移动 设 
备 中 ) 它 很 流行 ， 因 为 它 只 用 儿 行 就 能 实现 ( 甚至 机 器 码 也 是 ) 较 好 的 性 能 。 但 现代 系统 的 许多 应 用 
很 少 使 用 它 ， 因 为 它 无 法 利用 缓存 。 数 组 元 素 很 少 和 相 邻 的 其 他 元 素 进行 比较 ， 因 此 缓存 未 命中 的 次 
数 要 远 远 高 于 大 多 数 比较 都 在 相 邻 元 素 间 进 行 的 算法 ， 如 快速 排序 、 归 并 排序 ， 其 至 是 希 尔 排序 。 
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另 一 方面 ， 用 堆 实 现 的 优先 队列 在 现代 应 用 程序 中 越 来 越 重 要 ， 因 为 它 能 在 插入 操作 和 删除 最 大 [326 
元 素 操作 混合 的 动态 场景 中 保证 对 数 级 别 的 运行 时 间 。 我 们 会 在 本 书后 续 章 节 见 到 更 多 的 例子 。 327 











图 答 帮 


间 ”我 还 是 不 明白 优先 队列 是 做 什么 用 的 。 为 什么 我 们 不 直接 把 元 素 排序 然后 再 一 个 个 地 引用 有 序数 组 
中 的 元 素 ? 

答 在 某 些 数据 处 理 的 例子 里 ， 比 如 TopM 和 Mu1tiway， 总 数据 量 太 大 ， 无 法 排序 (甚至 无 法 全 部 装 进 
内 存 ) 。 如 果 你 需要 从 10 亿 个 元 素 中 选 出 最 大 的 十 个 ， 你 真 的 想 把 一 个 10 亿 规模 的 数组 排序 吗 ? 
但 有 了 优先 队列 ， 你 就 只 用 一 个 能 存储 十 个 元 素 的 队列 即 可 。 在 其 他 的 例子 中 ,我 们 甚至 无 法 同时 
获取 所 有 的 数据 ， 因 此 只 能 先 从 优先 队列 中 取出 并 处 理 一 部 分 ， 然 后 再 根据 结果 决定 是 否 向 优先 队 
列 中 添加 更 多 的 数据 。 

间 为 什么 不 像 我 们 在 其 他 排序 算法 中 那样 使 用 Comparable 接口 ,而 在 MaxPQ 中 使 用 泛 型 的 Ttem 呢 ? 

答 这 么 做 的 话 de1Max() 的 用 例 就 需要 将 返回 值 转换 为 某 种 具体 的 类 型 ， 比 如 String。 一 般 来 说 ， 应 
该 尽量 避免 在 用 例 中 进行 类 型 转换 。 

问 为 什么 在 堆 的 表示 中 不 使 用 a[0] ? 

答 这 么 做 可 以 稍稍 简化 计算 。 实 现 从 0 开始 的 堆 并 不 困难 ，a[0] 的 子 结 点 是 a[1] 和 a[2] ,a[1] 的 
子 结 点 是 a[3] 和 a[4] ，a[2] 的 子 结 点 是 a[5] 和 a[6] ， 以 此 类 推 。 但 大 多 数 程序 员 更 喜欢 我 们 的 
简单 方法 。 另 外 ， 将 a[0] 的 值 用 作 哨 兵 ( 作为 a[1] 的 父 结 点 ) 在 某 些 堆 的 应 用 中 很 有 用 。 

问 “在 我 看 来 ， 在 堆 排序 中 构造 堆 时 ， 逐 个 向 堆 中 添加 元 素 比 2.4.5.1 节 中 描述 的 由 底 向 上 的 复杂 方法 更 
简单 。 为 什么 要 这 么 做 ? 

答 ”对 于 一 个 排序 算法 来 说 ， 这 么 做 能 够 快 上 20%， 而 且 所 需 的 代码 更 少 ( 不 会 用 到 swim() 函数 ) 。 
理解 算法 的 难度 并 不 一 定 与 它 的 简洁 性 或 者 效率 相关 。 

间 ”如 果 我 去 掉 MaxPQ 的 实现 中 的 extends Comparable<Key> 这 句 话 会 怎样 ? 

答 ”和 以 前 一 样 ， 回 答 这 类 问题 的 最 简单 的 办 法 就 是 你 自己 直接 试 试 。 如 果 这 么 做 MaxPQ 会 报 出 一 个 编 
译 错误 : 

MaxPQ. java:21: cannot find symbol 
symbol : method compareTo(Item) 


Java 这 样 告诉 你 它 不 知道 Ttem 对 象 的 compareToQ 方法 ， 因 为 你 没有 声明 Item extends 
Comparable<Item>, 


图 练 

2.4.1 用 序列 PRIO*R**I*T*Y***QUE***U*E (字母 表示 插入 元 素 ， 星 号 表 
示 删 除 最 大 元 素 ) 操作 一 个 初始 为 空 的 优先 队列 。 给 出 每 次 删除 最 大 元 素 返回 的 字符 。 

2.4.2 分 析 以 下 说 法 : 要 实现 在 常数 时 间 找 到 最 大 元 素 ， 为 何不 用 一 个 栈 或 队列 ， 然 后 记录 已 插入 的 最 
大 元 素 并 在 找 出 最 大 元 素 时 返回 它 的 值 ?7 

2.4.3 用 以 下 数据 结构 实现 优先 队列 ， 支 持 插入 元 素 和 删除 最 大 元 素 的 操作 : 无 序数 组 、 有 序数 组 、 无 
序 链表 和 链表 。 将 你 的 4 种 实现 中 每 种 操作 在 最 坏 情况 下 的 运行 时 间 上 下 限制 成 一 张 表格 。 

2.4.4 一 个 按 降序 排列 的 数组 也 是 一 个 面向 最 大 元 素 的 堆 吗 ? 
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将 EASYQUESTION 顺序 插入 一 个 面向 最 大 元 素 的 堆 中 ， 给 出 结果 。 
按照 练习 2.4.1 的 规则 , 用 序列 PRIO*R**I*T*Y***QUE***U*E 操 
作 一 个 初始 为 空 的 面向 最 大 元 素 的 堆 ， 给 出 每 次 操作 后 堆 的 内 容 。 
在 堆 中 ， 最 大 的 元 素 一 定 在 位 置 1 上 ， 第 二 大 的 元 素 一 定 在 位 置 2 或 者 3 上 。 对 于 一 个 大 小 为 31 
的 堆 , 给 出 第 大 的 元 素 可 能 出 现 的 位 置 和 不 可 能 出 现 的 位 置 , 其 中 大 2、3、4( 设 元 素 值 不 重复 ) 。 
回答 上 一 道 练习 中 第 上 小 元 素 的 可 能 和 不 可 能 的 位 置 。 
给 出 A B C D E 五 个 元 素 可 能 构造 出 来 的 所 有 堆 ， 然 后 给 出 A A A B B 这 五 个 元 素 可 能 构造 出 
来 的 所 有 堆 。 

假设 我 们 不 想 浪 费 堆 有 序 的 数组 pq[] 中 的 那个 位 置 ， 将 最 大 的 元 素 放 在 pq[0] ， 它 的 子 结 点 放 
在 pq[1] 和 pq[2] ， 以 此 类 推 。pq[k] 的 父 结 点 和 子 结 点 在 哪里 ? 

如 果 你 的 应 用 中 有 大 量 的 插入 元 素 的 操作 ， 但 只 有 若干 删除 最 大 元 素 操作 ， 哪 种 优先 队列 的 实现 
方法 更 有 效 : 堆 、 无 序数 组 、 有 序数 组 ? 

如 果 你 的 应 用 场景 中 大 量 的 找 出 最 大 元 素 的 操作 ， 但 插入 元 素 和 删除 最 大 元 素 操作 相对 较 少 ， 
哪 种 优先 队列 的 实现 方法 更 有 效 : 堆 、 无 序数 组 、 有 序数 组 ? 

想 办 法 在 sink() 中 避免 检查 j < N。 

对 于 没有 重复 元 素 的 大 小 为 N 的 堆 ， 一 次 删除 最 大 元 素 的 操作 中 最 少 要 交换 几 个 元 素 ? 构造 
一 个 能 够 达到 这 个 交换 次 数 的 大 小 为 15 的 堆 。 连 续 两 次 删除 最 大 元 素 呢 ? 三 次 呢 ? 

设计 一 个 程序 ， 在 线性 时 间 内 检测 数组 pq[] 是 否 是 一 个 面向 最 小 元 素 的 堆 。 

对 于 N=32， 构 造 数组 使 得 堆 排 序 使 用 的 比较 次 数 最 多 以 及 最 少 。 

证 明 : 构造 大 小 为 上 的 面向 最 小 元 素 的 优先 队列 ， 然 后 进行 N-k 次 替换 最 小 元 素 操 作 ( 删除 最 
小 元 素 后 再 插入 元 素 ) 后 ，N 个 元 率 中 的 前 大 大 元 素 均 会 留 在 优先 队列 中 。 

在 MaxPQ 中 ， 如 果 一 个 用 例 使 用 insert0) 插入 了 一 个 比 队 列 中 的 所 有 元 素 都 大 的 新 元 素 ， 随 
后 立即 调用 de1Max()。 假 设 没 有 重复 元 素 ， 此 时 的 堆 和 进行 这 些 操作 之 前 的 堆 完 全 相同 吗 ? 进 
行 两 次 insert() (第 一 次 插入 一 个 比 队列 所 有 元 素 都 大 的 元 篆 ， 第 二 次 插入 一 个 更 大 的 元 素 ) 
操作 接 两 次 de1Max() 操作 呢 ? 

实现 MaxPQ 的 一 个 构造 函数 ， 接 受 一 个 数组 作为 参数 。 使 用 正文 2.4.5.1 节 中 所 述 的 自 底 向 上 的 
方法 构造 堆 。 

证 明 : 基于 下 沉 的 堆 构 造 方法 使 用 的 比较 次 数 小 于 2N， 交 换 次 数 小 于 N。 





图 提高 是 


2.4.21 
2.4.22 


2.4.23 


2.4.24 


基础 数据 结构 。 说 明 如 何 使 用 优先 队列 实现 第 1 章 中 的 栈 、 队 列 和 随机 队列 这 几 种 数据 结构 。 
调整 数组 大 小 。 在 MaxPQ 中 加 入 调整 数组 大 小 的 代码 ， 并 和 命题 Q 一 样 证 明 对 于 一 般 性 长 度 为 
和 的 队列 其 数组 访问 的 上 限 。 

Multiway 的 堆 。 只 考虑 比较 的 成 本 且 假设 找到 1 个 元 素 中 的 最 大 者 需要 ! 次 比较 ， 在 堆 排序 中 使 
用 4 向 堆 的 情况 下 找 出 使 比较 次 数 MgN 的 系数 最 小 的 1 值 。 首 先 ， 假 设 使 用 的 是 一 个 简单 通用 
的 sinkQ 方法 ; 其 次 , 假设 Floyd 方法 在 内 循环 中 每 轮 可 以 节省 一 次 比较 。 

使 用 链接 的 优先 队列 。 用 堆 有 序 的 二 叉 树 实现 一 个 优先 队列 ， 但 使 用 链表 结构 代替 数组 。 每 个 
结 点 都 需要 三 个 链接 : 两 个 向 下 ， 一 个 向 上 。 你 的 实现 即使 在 无 法 预知 队列 大 小 的 情况 下 也 能 
保证 优先 队列 的 基本 操作 所 需 的 时 间 为 对 数 级 别 。 
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2.4.25 计算 数论 。 编 写 程序 CubeSum.java， 在 不 使 用 额外 空间 的 条 件 下 ， 按 大 小 顺序 打印 所 有 ao+ 妨 的 

结果 ,其 中 a 和 4b 为 0 至 入 之 间 的 整数 。 也 就 是 说 ,不 要 全 部 计算 N 个 和 然后 排序 ， 而 是 创建 

-个 最 小 优先 队列 , 初始 状态 为 (0, 0, 0) 1, 0),(23, 2, 0),…,(V’, NN, 0)。 这 样 只 要 优先 队列 非 空 ， 
删除 并 打印 最 小 的 元 素 (P+P, i 让。 然后 如 果 j<N， 插 入 元 素 (i+0j+1), i 计 1)。 用 这 段 程序 找 出 
0 到 10' 之 间 所 有 满足 +b'=c*+df 的 不 同 整数 a,b,c,d。 

2.4.26 无 需 交换 的 堆 。 因 为 sink() 和 swim() 中 都 用 到 了 初级 函数 exch() ， 所 以 所 有 元 素 都 被 多 加 载 
并 存储 了 一 次 。 回 避 这 种 低 效 方式 ， 用 插入 排序 给 出 新 的 实现 (请 见 练习 2.1.25 ) 。 

2.4.27 找 出 最 小 元 素 。 在 MaxPQ 中 加 和 一 个 min0 方法 。 你 的 实现 所 需 的 时 间 和 空间 都 应 该 是 常数 。 

2.4.28 选择 过 滤 。 编 写 一 个 TopM 的 用 例 ， 从 标准 输入 读 人 坐标 (x, y, z)， 从 命令 行 得 到 值 M， 然 后 打 331 
印 出 距离 原点 的 欧 几 里 德 距离 最 小 的 M 个 点 。 在 N=10* 且 AM-10* 时 ， 预 计 程 序 的 运行 时 间 。 

2.4.29 同时 面向 最 大 和 最 小 元 素 的 优先 队列 。 设 计 一 个 数据 类 型 ， 支 持 如 下 操作 ， 插 入 元 素 、 删 除 最 
大 元 素 、 删 除 最 小 元 素 ( 所 需 时 间 均 为 对 数 级 别 ) ， 以 及 找到 最 大 元 素 、 找 到 最 小 元 素 ( 所 需 
时 间 均 为 常数 级 别 ) 。 提 示 : 用 两 个 堆 。 

2.4.30 动态 中 位 数 查找 。 设 计 一 个 数据 类 型 ， 支 持 在 对 数 时 间 内 插入 元 素 ， 常 数 时 间 内 找到 中 位 数 并 在 
对 数 时 间 内 删除 中 位 数 。 提 示 : 用 一 个 面向 最 大 元 素 的 堆 再 用 一 个 面向 最 小 元 素 的 堆 。 

2.4.31 快速 插入 。 用 基于 比较 的 方式 实现 MinPQ 的 API， 使 得 插入 元 素 需 要 ~ loglogN 次 比较 ， 删 除 
最 小 元 素 需要 ~2logN 次 比较 。 提 示 : 在 swim() 方法 中 用 二 分 查找 来 寻找 祖先 结 点 。 

2.4.32 下界 。 请 证 明 ， 不 存在 一 个 基于 比较 的 对 MinPQ 的 API 的 实现 能 够 使 得 插入 元 素 和 删除 最 小 元 
素 的 操作 都 保证 只 使 用 ~NioglogN 次 比较 。 

2.4.33 索引 优先 队列 的 实现 。 授 照 2.4.4.6 节 的 描述 修改 算法 2.6 来 实现 索引 优先 队列 API 中 的 基本 操作 ， 
使 用 pq[] 保存 索引 ， 添 加 一 个 数组 keys[] 来 保存 元 素 ， 再 添加 一 个 数组 qp[] 来 保存 pq[] 的 
逆序 一 一 9p[i] 的 值 是 i 在 pq[] 中 的 位 置 ( 即 索引 j，pq[j]=i ) 。 修 改 算法 2.6 的 代码 来 维护 
这 些 数据 结构 。 若 i 不 在 队列 之 中 ， 则 总 是 令 qp[i] = -1 并 添加 一 个 方法 contains() 来 检测 





























这 种 情况 。 你 需要 修改 辅助 函数 exch() 和 Tess() ， 但 不 需要 修改 sink() 和 swimO 。 332 
部 分 答案 : 
public class IndexMinpQ<Key extends Comparable<Key>> 
{ 
private int N; // PQ 中 的 元 素数 量 
private int[] pq; // 索引 二 又 堆 ， 由 1 开始 
private int[] qp; // 送 序 : qp[pq[i]] = pq[qp[i]] = 
private Key[] keys; // 有 优先 级 之 分 的 元 素 


public IndexMinPQCint maxN) 
{ 

keys = (Key[]) new Comparable[maxN + 1]; 

pq = new int[maxN + 1]; 

qp = new int[maxN + 1]; 

for (int i = 0; 1 <= maxN; i++) qp[i] = -1; 
} 


public boolean isEmpty() 
{ return N -= 0; } 


public boolean containsCint k) 
{ return qp[k] != -1; } 
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2.4.34 


2.4.35 


public void insert(int k, Key key) 
L 

NH+; 

qp[k] = N; 

pq[N] = ki 

keys[k] = key; 

Swim(N); 


} 


public Key min() 
{ return keys[pq[1]]; } 


public int delMin() 

站 
int indexOfMin = pq[1]; 
exch(1, N--); 
sink(D); 
keys[pq[N+1]] = null; 
qp[pq[N+1]] = -1; 
return indexOfMin; 


} 


索引 优先 队列 的 实现 ( 附加 操作 ) 。 向 练习 2.4.33 的 实现 中 添加 minIndex() 、 


delete() 方法 。 

解答 : 

public int minIndex() 
{ return pq[1]; } 


public void changeCint k, Key Key) 
人 

keys[k] = key; 

swim(qp[k]); 

SinkCqp[k]); 
} 


public void deleteCint k) 
{ 
exchCk, N--); 
swim(qp[k]); 
Sink(qp[k]); 
keys[pq[N+1]] 
qp[pq[N+1]] 
} 


null; 








change() 和 


离散 概率 分 布 的 取样 。 编 写 一 个 Sample 类 ， 其 构造 函数 接受 一 个 double 类 型 的 数组 p[] 作为 
参数 并 支持 以 下 操作 : random() 一 一 返回 任意 索引 i 及 其 概率 p[i]/T (T 是 p[] 中 所 有 元 素 之 
和 ); change(i，v) 一 一 将 p[i] 的 值 修改 为 v。 提 示 : 使 用 完全 二 叉 树 ， 每 个 结 点 对 应 一 个 
权重 p[i]。 在 每 个 结 点 记录 其 下 子 树 的 权重 之 和 。 为 了 产生 一 个 随机 的 索引 ， 取 0 到 T 之 间 的 

-个 随机 数 并 根据 各 个 结 点 的 权重 之 和 来 判断 沿 着 哪 条 子 树 搜索 下 去 。 在 更 新 p[i] 时 ， 同 时 更 


新 从 根 结 点 到 i 的 路 径 上 的 所 有 结 点 。 不 要 像 堆 的 实现 那样 显 式 使 用 指针 。 
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图 实验 到 


2.4.36 


2.4.37 


2.4.38 


2.4.39 


2.4.40 


2.4.41 


2.4.42 


性 能 测试 1。 编写 一 个 性 能 测试 用 例 ， 用 插入 元 素 操作 填 满 一 个 优先 队列 ， 然 后 用 删除 最 大 元 
素 操作 删 去 一 半 元 素 , 再 用 插入 元 素 操作 填 满 优先 队列 ,再 用 删除 最 大 元 素 操作 删 去 所 有 元 素 。 
用 一 列 随 机 的 长 短 不 同 的 元 素 多 次 重复 以 上 过 程 ， 测 量 每 次 运行 的 用 时 ， 打 印 平均 用 时 或 是 将 
其 绘制 成 图 表 。 

性 能 测试 II。 编写 一 个 性 能 测试 用 例 ， 用 插入 元 素 操作 填 满 一 个 优先 队列 ， 然 后 在 一 秒 钟 之 内 
尽 可 能 多 地 连续 反复 调用 删除 最 大 元 素 和 插入 元 素 的 操作 。 用 一 列 随 机 的 长 短 不 同 的 元 素 多 次 
重复 以 上 过 程 ， 将 程序 能 够 完成 的 删除 最 大 元 素 操作 的 平均 次 数 打印 出 来 或 是 绘 成 图 表 。 

练习 测试 。 编 写 一 个 练习 用 例 ， 用 算法 2.6 中 实现 的 优先 队列 的 接口 方法 处 理 实际 应 用 中 可 能 
出 现 的 高 难度 或 是 极端 情况 。 例 如 ， 元 素 已 经 有 序 、 元 素 全 部 逆序 、 元 素 全 部 相同 或 是 所 有 元 
素 只 有 两 个 值 。 

构造 函数 的 代价 。 对 于 N=10 、10 和 10”， 根 据 经 验 判断 堆 排序 时 构造 堆 占 总 耗 时 的 比例 。 
Floyd 方法 。 根 据 正文 中 Floyd 的 先 沉 后 浮 思 想 实现 堆 排序 。 对 于 N=10? 、105 和 10? 大 小 的 随机 
不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 比较 次 数 。 

Multiway 堆 。 根 据 正文 中 的 描述 实现 基于 完全 堆 有 序 的 三 叉 树 和 四 又 树 的 堆 排序 。 对 于 
NE=10 、10 和 10 大 小 的 随机 不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 
比较 次 数 。 

推 的 前 序 表示 。 用 前 序 法 而 非 级 别 表示 一 棵 堆 有 序 的 树 ， 并 基于 此 实现 堆 排序 。 对 于 N-10'、 
10 和 10 大 小 的 随机 不 重复 数组 ， 记 录 你 的 程序 所 使 用 的 比较 次 数 和 标准 实现 所 使 用 的 比较 
次 数 。 
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2.5 应 用 


排序 算法 和 优先 队列 在 许多 场景 中 有 着 广泛 的 应 用 。 本 节 中 我 们 将 简要 地 浏览 一 遍 这 些 应 用 ， 
研究 如 何 能 让 我 们 已 经 学 习 过 的 高 效 算法 在 这 些 应 用 中 大 展 身手 ， 然 后 讨论 一 下 应 该 如 何 使 用 我 们 
的 排序 和 优先 队列 的 代码 。 _ 

排序 如 此 有 用 的 一 个 主要 原因 是 ,在 一 个 有 序 的 数组 中 查找 一 个 元 素 要 比 在 一 个 无 序 的 数 
组 中 查找 简单 得 多 。 人 们 用 了 一 个 多 世纪 发 现在 一 本 按 姓氏 排序 的 电话 黄页 中 查找 某 个 人 的 
电话 号 码 最 容易 。 现 在 ， 数 字音 乐 作 家 们 将 歌曲 文件 按照 作家 名 或 是 歌曲 名 排序 ， 搜 索引 擎 
按照 搜索 结果 的 重要 性 的 高 低 显 示 结 果 ， 电 子 表格 按照 某 一 列 的 排序 结果 显示 所 有 栏 ， 矩 阵 
处 理工 具 将 一 个 对 称 矩 阵 的 真实 特征 值 按照 降 序 排列 ， 等 等 。 只 要 队列 是 有 序 的 ， 很 多 其 他 
任务 也 更 容易 完成 ， 比 如 在 本 书 最 后 的 有 序 索 引 中 查找 某 项 ， 或 是 从 一 列 长 长 的 邮件 列表 或 
者 投票 人 列表 或 者 网 站 列表 中 删 去 重复 项 ， 或 是 在 统计 学 计算 中 剔除 异常 值 、 查 找 中 位 数 或 
者 计算 比例 。 

在 许多 看 似 无 关 的 领域 中 ， 排 序 其 实 仍然 是 一 个 重要 的 子 问题 。 数 据 压缩 、 计 算 机 图 形 学 、 计 
算 生物 学 、 供 应 链 管 理 、 组 合 优化 、 社 会 选择 和 投票 等 ， 不 一 而 足 。 我 们 在 本 章 中 学 习 的 算法 也 在 
开发 本 书 其 他 章节 的 强大 算法 的 过 程 中 起 到 了 关键 作用 。 

通用 排序 算法 是 最 重要 的 ， 因 此 我 们 首先 会 考虑 一 些 在 构建 适用 于 多 种 情况 的 排序 算法 时 需要 
注意 的 实际 问题 。 虽 然 部 分 话题 只 适用 于 Java， 但 每 个 问题 都 仍然 是 所 有 系统 需要 解决 的 。 

我 们 的 主要 目的 是 为 了 说 明 ， 尽 管 我 们 所 学 习 的 各 种 算法 的 思想 相对 简单 ， 但 它们 的 适用 
领域 仍然 广泛 。 经 过 验证 的 各 种 排序 算法 的 应 用 列表 很 长 ,我 们 在 这 里 只 会 涉及 其 中 的 一 小 部 分 ， 
一 些 是 科学 领域 的 ， 一 些 是 算法 领域 的 ， 还 有 一 些 是 商业 领域 的 。 在 练习 中 你 们 还 能 找到 更 多 
例子 ， 本 书 的 网 站 上 还 有 更 多 。 另 外 ， 为 了 更 好 的 说 明 问 题 ， 后 续 章 节 还 会 不 时 地 引用 本 章 的 
内 容 ! 


2.5.1 将 各 种 数据 排序 

我 们 的 实现 的 排序 对 象 是 由 实现 了 Comparable 接口 的 对 象 组 成 的 数组 。Java 的 约定 使 得 我 
们 能 够 利用 Java 的 回调 机 制 将 任意 实现 了 Comparab1e 接口 的 数据 类 型 排序 。 如 2.1 节 所 述 ， 实 现 
Comparable 接口 只 需要 定义 一 个 compareTo() 函数 并 在 其 中 定义 该 数据 类 型 中 的 大 小 关系 。 我 们 
的 代码 直接 能 够 将 String、Integer 、Double 和 一 些 其 他 例如 File 和 URL 类 型 的 数组 排序 ， 因 
为 它们 都 实现 了 Comparable 接口 。 同 一 段 代码 能 够 适应 所 有 这 些 类 型 的 数据 是 非常 方便 的 ， 但 一 
般 的 应 用 程序 中 需要 排序 的 数据 类 型 都 是 应 用 程序 自己 定义 的 。 相 应 ， 在 自 定义 的 数据 类 型 中 实现 
一 个 compareTo() 方法 也 是 很 常见 的 ， 这 样 就 实现 了 Comparable 接口 ， 也 就 使 得 这 种 数据 类 型 
可 以 被 排序 了 (也 可 以 用 其 构造 优先 队列 ) 。 
2.5.1.1 交易 事务 

排序 算法 的 一 种 典型 应 用 就 是 商业 数据 处 理 。 例 如 ， 设 想 一 家 互联 网 商业 公司 为 每 笔 交易 记录 
都 保存 了 所 有 的 相关 信息 ， 包 括 客户 名 、 日 期 、 金 额 等 。 如 今 ， 一 家 成 功 的 商业 公司 需要 能 够 处 理 
数 百 万 的 这 种 交易 数据 。 如 我 们 在 练习 2.1.21 中 看 到 的 ， 一 种 合适 的 方法 是 将 交易 记录 按 金 额 大 小 
排序 ， 我 们 在 类 的 定义 中 实现 一 个 恰当 的 compareToQ 方法 就 可 以 做 到 这 一 点 。 这 样 我 们 在 处 理 
Transaction 类 型 的 数组 a[] 时 就 可 以 先 将 其 排序 ， 比 如 这 样 Quick.sort(a)。 我 们 的 排序 算法 
对 Transaction 类 型 一 无 所 知 ， 但 Java 的 Comparable 接口 使 我 们 可 以 为 该 类 型 定义 大 小 关系 ， 
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这 样 我 们 的 任意 排序 算法 都 能 够 用 于 Transaction 对 象 了 。 或 者 我 们 也 可 以 令 Transaction 对 象 
按照 日 期 排序 《如 下 面 的 代码 所 示 ) ， 将 compareTo() 方法 实现 为 比较 Date 字段 。 因 为 Date 对 
象 本 身 也 实现 了 Comparable 接口 ,我 们 可 以 直接 调用 它 的 compareTo() 方法 而 不 用 自己 实现 了 。 
将 这 种 类 型 按照 用 户 名 排序 也 是 合理 的 。 使 算法 的 用 例 能 够 灵活 地 用 不 同 的 字段 排序 则 是 我 们 在 稍 
后 将 要 面 对 的 另 一 项 有 趣 的 挑战 。 


public int compareTo(Transaction that) 
{ return this.when.compareTo(that.when); } 


将 交易 记录 按照 日 期 排序 的 compareTo() 方 法 


2.5.1.2 ”指针 排序 

我 们 使 用 的 方法 在 经 典 教材 中 被 称 为 指针 排序 , 因为 我 们 只 处 理 元 素 的 引用 而 不 移动 数据 本 身 。 
在 其 他 编程 语言 例如 C 和 C++ 之 中 ,程序 员 需 要 明确 地 指出 操作 的 是 数据 还 是 指向 数据 的 指针 ， 
而 在 Java 中 ， 指 针 操作 是 隐 式 的 。 除 了 原始 数字 类 型 之 外 ， 我 们 操作 的 总 是 数据 的 引用 (指针 ) ， 
而 非 数据 本 身 。 指 针 排序 增加 了 一 层 间接 性 , 因为 数组 保存 的 是 待 排 序 的 对 象 的 引用 , 而 非 对 象 本 身 。 
我 们 会 简要 讨论 一 些 相关 的 问题 。 对 于 多 个 引用 数组 ， 我 们 可 以 将 同一 组 数据 的 不 同 部 分 按照 多 种 
方式 排序 ( 可 能 会 用 到 下 面 提 到 的 多 键 )。 
2.5.1.3 不 可 变 的 键 

如 果 在 排序 后 用 例 还 能 够 修改 键 值 ， 那 么 数组 就 很 可 能 不 再 是 有 序 的 了 。 类 似 ， 优 先 队列 在 
用 例 能 够 修改 键 值 的 情况 下 也 不 太 可 能 正常 工作 。 在 Java 中 ， 可 以 用 不 可 变 的 数据 类 型 作为 键 来 
避免 这 个 问题 。 大 多 数 你 可 能 用 作 键 的 数据 类 型 ， 例 如 String、Integer、Double 和 File 都 是 
不 可 变 的 。 
2.5.1.4 ”廉价 的 交换 

使 用 引用 的 另 一 个 好 处 是 我 们 不 必 移动 整个 元 素 。 对 于 元 素 大 而 键 小 的 数组 来 说 这 带 来 的 节 
约 是 巨大 的 ， 因 为 比较 只 需要 访问 元 素 的 一 小 部 分 ， 而 排序 过 程 中 大 部 分 元 素 都 不 会 被 访问 到 。 
对 于 几乎 任意 大 小 的 元 素 ， 使 用 引用 使 得 在 一 般 情况 下 交换 的 成 本 和 比较 的 成 本 几乎 相同 ( 代价 
是 需要 额外 的 空间 存储 这 些 引用 ) 。 如 果 键 值 很 长 ， 那 么 交换 的 成 本 甚至 会 低 于 比较 的 成 本 。 研 
究 将 数字 排序 的 算法 性 能 的 一 种 方法 就 是 观察 其 所 需 的 比较 和 交换 总 数 ， 因 为 这 里 隐 式 地 假设 了 
比较 和 交换 的 成 本 是 相同 的 。 由 此 得 出 的 结论 则 适用 于 Java 中 的 许多 应 用 ， 因 为 我 们 都 是 在 将 引 
用 排序 。 
2.5.1.5 多 种 排序 方法 

在 很 多 应 用 中 我 们 都 希望 根据 情况 将 一 组 对 象 按照 不 同 的 方式 排序 。Java 的 Comparator 接 
口 允许 我 们 在 一 个 类 之 中 实现 多 种 排序 方法 。 它 只 有 一 个 compare() 方法 来 比较 两 个 对 象 。 如 果 
一 种 数据 类 型 实现 了 这 个 接口 ， 我 们 可 以 像 2.5.1.6 节 中 的 例子 那样 将 另 一 个 实现 了 Comparator 
接口 的 对 象 传递 给 sort() 方法 ( sort() 再 将 其 传递 给 less() ) 。Comparator 接口 允许 我 们 
为 任意 数据 类 型 定义 任意 多 种 排序 方法 。 用 Comparator 接口 来 代替 Comparable 接口 能 够 更 好 
地 将 数据 类 型 的 定义 和 两 个 该 类 型 的 对 象 应 该 如 何 比较 的 定义 区 分 开 来 。 事 实 上 ， 比 较 两 个 对 象 
的 确 可 以 有 多 种 标准 ，Comparator 接口 使 得 我 们 能 够 在 其 中 进行 选择 。 例 如 ， 想 在 忽略 大 小 写 
的 情况 下 将 字符 串 数 组 a[] 排序 ， 可 以 使 用 Java 的 String 类 型 中 定义 的 CASE_INSENSITVE_ 
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ORDER 比较 器 并 调用 Insertion.sort(a，String.CASE_INSENSITIVE_ORDER)。 你 也 知道 ， 精 
确定 义 的 字符 串 排序 规则 十 分 复杂 ， 而 各 种 自然 语言 又 差异 很 大 ， 所 以 Java 的 String 类 型 含有 
很 多 比较 器 。 
2.5.1.6 ”多 键 数组 

一 般 在 应 用 程序 中 ,一 个 元 素 的 多 种 属性 都 可 能 被 用 作 排 序 的 键 。 在 交易 的 例子 中 ， 有 时 
可 能 需要 将 交易 按照 客户 排序 ( 例如 ， 找 出 每 个 客户 进行 的 所 有 交易 ) ; 有 时 又 可 能 需要 按 
照 金额 排序 ( 例如 ， 需 要 找 出 交易 金额 较 高 的 交易 ) ; 有 时 还 可 能 用 另 一 个 属性 来 排序 。 要 
实现 这 种 灵活 性 ，Comparator 接口 正 合适 。 我 们 可 以 定义 多 种 比较 器 ， 如 2.5.1.7 节 展 示 的 
Transaction 类 的 另 一 种 实现 那样 。 在 这 样 定义 之 后 ， 要 将 Transaction 对 象 的 数组 按照 时 
间 排 序 可 以 调用 : 

Insertion. sort(a, new Transaction.WhenOrder()) 
或 者 这 样 来 按照 金额 排序 : 

Insertion. sort(a, new Transaction.HowMuchOrder()) 


sort0 方法 在 每 次 比较 中 都 会 回调 Transaction 类 中 用 例 指定 的 compare() 方法 。 为 了 避免 
每 次 排序 都 创建 一 个 新 的 Comparator 对 象 ， 我 们 使 用 了 pub1ic final 来 定义 这 些 比较 器 ( 代码 
如 下 ， 就 像 Java 定义 的 CASE_INSENSITIVE_ORDER 一 样 ) 。 


public static void sort(Object[] a，Comparator c) 
{ 
int N = a.length; 
for Cint i = 1; i < N; i++) 
for (int j = i; j > 0 && less(c, a[lj], alj-1]); j--) 
exch(a, j, j~D; 








} 


private static boolean less(Comparator c, Object v, Object w) 
{ return c.compare(v, w) < 0; } 


private static void exch(Object[] a, int i, int j) 
{ Object t = a[i]; a[li] = a[j]; arj] = t; } 


使 用 了 Comparator 的 插入 排序 


2.5.1.7 ”使 用 比较 器 实现 优先 队列 

比较 器 的 灵活 性 也 可 以 用 在 优先 队列 上 。 我 们 可 以 按照 以 下 步骤 来 扩展 算法 2.6 的 标准 实现 来 
支持 比较 器 : 

口 导 人 java.util.Comparator; 

口 为 MaxPQ 添加 一 个 实例 变量 comparator 以 及 一 个 构造 函数 ， 该 构造 函数 接受 一 个 比较 器 

作为 参数 并 用 它 将 comparator 初始 化 ; 
口 在 lessQ 中 检查 comparator 属性 是 否 为 nu11 ( 如 果 不 是 的 话 就 用 它 进行 比较 ) 。 
实现 代码 如 下 : 
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import java.util.Comparator; 


public class Transaction 


private final String who; 
private final Date when; 
private final double amount; 


public static class WhoOrder implements Comparator<Transaction> 


public int compare(Transaction v, Transaction w) 
{ return v.who.compareTo(w.who); 了 
} 


public static class WhenOrder implements Comparator<Transaction> 
public int compare(Transaction v, Transaction w) 


{ return v.when.compareTo(w.when); } 
} 


public static class HowMuchOrder implements Comparator<Transaction> 
{ 
public int compare(Transaction v, Transaction w) 


if (v.amount < W.amount) return -1; 
if (v.amount > Ww.amount) return +1; 
return 0; 
} 
} 
} 


使 用 了 Comparator 的 插入 排序 


例如 ， 修 改 后 可 以 使 用 Transaction 的 多 种 字段 构造 不 同 的 优先 队列 ， 分 别 按照 时 间 、 地 点 、 
账号 排序 。 如 果 你 在 MinPQ 中 去 掉 了 Key extends Comparable<Key> 这 句 话 ， 甚 至 可 以 支持 沿 
未 定义 过 比较 方法 的 键 。 340| 
2.5.1.8 稳定 性 

如 果 一 个 排序 算法 能 够 保留 数组 中 重复 元 素 的 相对 位 置 则 可 以 被 称 为 是 稳定 的 。 这 个 性 质 在 许 
多 情况 下 很 重要 。 例 如 ， 考 虑 一 个 需要 处 理 大 量 含有 地 理 位 置 和 时 间 稚 的 事件 的 互联 网 商业 应 用 程 
序 。 首 先 ， 我 们 在 事件 发 生 时 将 它们 挨个 存储 在 一 个 数组 中 ， 这 样 在 数组 中 它们 已 经 是 按照 时 间 顺 
序 排 好 了 的 。 现 在 假设 在 进一步 处 理 前 将 按照 地 理 位 置 切 分 。 一 种 简单 的 方法 是 将 数组 按照 位 置 排 
序 。 如 果 排 序 算法 不 是 稳定 的 ， 排 序 后 的 每 个 城市 的 交易 可 能 不 会 再 是 按照 时 间 顺 序 排列 的 了 。 很 
多 情况 下 ， 不 熟悉 排序 稳定 性 的 程序 员 在 第 一 次 遇见 这 种 情形 时 会 惊讶 于 不 稳定 的 排序 算法 似乎 把 
数据 弄 得 一 团 糟 。 在 本 章 中 ， 我 们 学 习 过 的 一 部 分 算法 是 稳定 的 (插入 排序 和 归并 排序 ) ， 但 很 多 
不 是 ( 选择 排序 、 希 尔 排序 、 快 速 排序 和 堆 排 序 ) 。 有 很 多 办 法 能 够 将 任意 排序 算法 变 成 稳定 的 ( 请 
见 练习 2.5.18 ) ,但 一 般 只 有 在 稳定 性 是 必要 的 情况 下 稳定 的 排序 算法 才 有 优势 。 人 们 很 容易 觉得 
算法 具有 稳定 性 是 理所当然 的 ， 但 事实 上 没有 任何 实际 应 用 中 常见 的 方法 不 是 用 了 大 量 额外 的 时 间 
和 空间 才 做 到 了 这 一 点 ( 研究 人 员 开发 了 这 样 的 算法 , 但 应 用 程序 员 发 现 它们 太 复杂 了 , 无 法 使 用 )。 

从 另 一 个 键 上 排序 的 稳定 性 如 图 2.5.1 所 示 。 
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按照 时 间 排序 按照 地 理 位 置 排序 〈 不 稳定 ) 按照 地 理 位 置 排序 稳定 ) 
Chicago Chicago 09:25:52 Chicago 09 
Phoenix Chicago 09:03:13 Chicago 09 
Houston Chicago 09:21:05 Chicago 09 
Chicago Chicago 09:19:46 Chicago 09. 
Houston Chicago 09:19:32 Chicago 09. 
Chicago Chicago 09:00:00 Chicago 09 
Seattle 09:10:11 Chicago 09:35:21 Chicago 09 
Seattle 09:10:25 Chicago 09:00:59 Chicago 09:35:21 
Phoenix 09:14: Houston 09:01:10 Houston 09:00:13 
Chicago Houston 09:00:13 不 再 时 Houston 09:01:10 仍然 时 
Chicago Phoenix 09:37:44 间 有 序 Phoenix 09:00: 间 有 序 
Chicago Phoenix 09:00:03 Phoenix 09 
Seattle Phoenix 09:14:25 Phoenix 09: 
Seattle Seattle 09:10:25 Seattle 09 
Chicago Seattle 09:36 Seattle 09 


Seattle 09: 
Seattle 09 
Seattle 09: 


Chicago Seattle 0 
Seattle Seattle 09: 
Phoenix 09:37:44 Seattle 09: 


图 2.5.1 从 另 一 个 键 上 排序 的 稳定 性 








2.5.2 ”我 应 该 使 用 哪 种 排序 算法 
章 中 我 们 学 习 了 许多 种 排序 算法 ， 这 个 问题 就 变 得 很 自然 了 。 排 序 算法 的 好 坏 很 大 程度 上 
取决 于 它 的 应 用 场景 和 具体 实现 ， 但 我 们 也 学 习 了 一 些 通用 的 算法 ， 它 们 能 在 很 多 情况 下 达到 和 最 
佳 算法 接近 的 性 能 。 

表 2.5.1 总 结 了 在 本 章 中 我 们 学 习 过 的 排序 算法 的 各 种 重要 性 质 。 除 了 和 希 尔 排序 ( 它 的 复杂 度 
只 是 一 个 近似 ) 、 插 入 排序 ( 它 的 复杂 度 取 决 于 输入 元 素 的 排列 情况 ) 和 快速 排序 的 两 个 版 本 ( 它 
们 的 复杂 度 和 概率 有 关 ， 取 决 于 输入 元 素 的 分 布 情况 ) 之 外 ， 将 这 些 运行 时 间 的 增长 数量 级 乘 以 适 
当 的 常数 就 能 够 大 致 估计 出 其 运行 时 间 。 这 里 的 常数 有 时 和 算法 有 关 ( 比如 堆 排序 的 比较 次 数 是 归 
并 排序 的 两 倍 ， 且 两 者 访问 数组 的 次 数 都 比 快速 排序 多 得 多 ) ， 但 主要 取决 于 算法 的 实现 、Java 编 
译 器 以 及 你 的 计算 机 ， 这 些 因素 决定 了 需要 执行 的 机 器 指令 的 数量 以 及 每 条 指令 所 需 的 执行 时 间 。 











最 重要 的 是 ， 因 为 这 些 都 是 常数 ， 你 能 通过 较 小 的 N 得 到 的 实验 数据 和 我 们 的 标准 双 倍 测试 来 推测 
较 大 的 N 所 需 的 运行 时 间 。 
表 2.5.1 各 种 排序 算法 的 性 能 特点 
将 N 个 元 素 排 序 的 复杂 度 
算 。 法。 是否 稳定 是 为 原 地 排序 一 站 备注 
选择 排序 加 是 四 1 
插入 排序 是 是 介 于 N 和 N 之 间 1 取决 于 输入 元 素 的 排列 情况 
希 尔 排序 碍 是 Me 1 
快速 排序 理 是 MogN 1gN 运行 效率 由 概率 提供 保证 
介 于 入 和 MogN 运行 效率 由 概率 保证 ， 同 时 也 
和 快速 排 让。 We 各 之 间 18N 取决 于 输入 元 素 的 分 布 情况 
归并 排序 是 否 MogN AN 
堆 排 序 否 是 NiogN 1 
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性 质 T。 快 速 排序 是 最 快 的 通用 排序 算法 。 


例证 。 自 从 数 十 年 前 快速 排序 发 明 以 来 ， 它 在 无 数 计算 机 系统 中 的 无 数 实现 已 经 证 明了 这 一 点 。 
总 的 来 说 ， 快 速 排序 之 所 以 最 快 是 因为 它 的 内 循环 中 的 指令 很 少 ( 而 且 它 还 能 利用 缓存 ， 因 为 
它 总 是 顺序 地 访问 数据 ) ， 所 以 它 的 运行 时 间 的 增长 数量 级 为 ~cNlgN， 而 这 里 的 c 比 其 他 线性 
对 数 级 别 的 排序 算法 的 相应 常数 都 要 小 。 在 使 用 三 向 切 分 之 后 ， 快 速 排序 对 于 实际 应 用 中 可 能 
出 现 的 某 些 分 布 的 输入 变 成 线性 级 别 的 了 ， 面 其 他 的 排序 算法 则 仍然 需要 线性 对 数 时间 。 


因此 ， 在 大 多 数 实际 情况 中 ， 快 速 排序 是 最 佳 选 择 。 当 然 ， 面 对 多 种 排序 方法 和 各 式 计算 
机 及 系统 ， 这 么 一 句 干巴 巴 的 话 很 难 让 人 信服 。 例 如 ， 我 们 已 经 见 过 一 个 明显 的 例外 : 如 果 稳 定 
性 很 重要 而 空间 又 不 是 问题 ， 归 并 排序 可 能 是 最 好 的 。 我 们 会 在 第 5 章 中 见 到 更 多 例外 。 有 了 
SortCompare 这 样 的 工具 ， 再 加 上 一 点 时 间 和 努力 ， 你 能 够 更 仔细 地 比较 这 些 算法 的 性 能 并 实现 我 
们 讨论 过 的 各 种 改进 方案 ， 详 见 本 节 最 后 的 若干 练习 。 也 许 证 明 性 质 T 的 最 好 方式 正如 这 里 所 说 ， 
在 运行 时 间 至 关 重 要 的 任何 排序 应 用 中 认真 地 考虑 使 用 快速 排序 。 
2.5.2.1 将 原始 类 型 数据 排序 

一 些 性 能 优先 的 应 用 的 重点 可 能 是 将 数字 排序 ， 因 此 更 合理 的 做 法 是 跳 过 引用 直接 将 原始 数据 
类 型 的 数据 排序 。 例 如 ， 想 想 将 一 个 double 类 型 的 数组 和 一 个 Double 类 型 的 数组 排序 的 差别 。 
对 于 前 者 我 们 可 以 直接 交换 这 些 数 并 将 数组 排序 ; 而 对 于 后 者 ， 我 们 交换 的 是 存储 了 这 些 数 字 的 
Double 对 象 的 引用 。 如 果 我 们 只 是 在 将 一 大 组 数 排序 的 话 ， 跳 过 引用 可 以 为 我 们 节省 存储 所 有 引 
用 所 需 的 室 间 和 通过 引用 来 访问 数字 的 成 本 ， 更 不 用 说 那些 调用 compareTo() 和 less() 方法 的 
开销 了 。 把 Comparable 接口 蔡 换 为 原始 数据 类 型 名 ， 重 定义 less 方法 或 者 干脆 将 调用 1essO 
的 地 方 替换 为 ari] < a[j] 这 样 的 代码 ， 我 们 就 能 得 到 可 以 将 原始 数据 类 型 的 数据 更 快 地 排序 的 
各 种 算法 ( 请 见 练习 2.1.26 ) 。 
2.5.2.2 Java 系统 库 的 排序 算法 

为 了 演示 表 2.5.1 所 示 的 数据 ， 这 里 我 们 考虑 Java 系统 库 中 的 主要 排序 方法 java.uti1. 
Arrays.sort()。 根 据 不 同 的 参数 类 型 ， 它 实际 上 代表 了 一 系列 排序 方法 : 

口 每 种 原始 数据 类 型 都 有 一 个 不 同 的 排序 方法 ; 

口 一 个 适用 于 所 有 实现 了 Comparable 接口 的 数据 类 型 的 排序 方法 ; 

口 一 个 适用 于 实现 了 比较 器 Comparator 的 数据 类 型 的 排序 方法 。 

Java 的 系统 程序 员 选 择 对 原始 数据 类 型 使 用 ( 三 向 切 分 的 ) 快速 排序 ， 对 引用 类 型 使 用 归并 排 
序 。 这 些 选择 实际 上 也 暗示 着 用 速度 和 空间 ( 对 于 原始 数据 类 型 ) 来 换取 稳定 性 ( 对 于 引用 类 型 ) ， 
如 刚才 讨论 的 那样 。 

我 们 讨论 过 的 这 些 算法 和 思想 是 包括 Java 的 许多 现代 系统 的 核心 组 成 部 分 。 当 为 实际 应 用 开发 
Java 程序 时 ， 你 会 发 现 Java 的 Arrays .sort() 实现 ( 可 能 再 加 上 你 自己 实现 的 compareTo() 或 者 
compare() ) 已 经 基本 够 用 了 ， 因 为 它 使 用 的 三 向 快速 排序 和 归并 排序 都 是 经 典 。 

在 本 书 中 我 们 一 般 都 会 使 用 我 们 自己 的 Quick.sortO 或 者 Nerge.sortO ( 在 稳定 性 比 空间 更 
重要 时 ) 。 你 也 可 以 使 用 Arrays.sort 〇 O ， 或 者 在 特殊 的 情况 下 使 用 其 他 排序 算法 。 


2.5.3 问题 的 归 约 
使 用 排序 算法 来 解决 其 他 问题 的 思想 是 算法 设计 领域 的 基本 技巧 一 一 归 约 的 一 个 例子 。 因 为 归 
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约 十 分 重要 ， 我 们 会 在 第 6 章 详细 讨论 它 ， 同 时 研究 几 个 具体 实例 。 归 约 指 的 是 为 解决 某 个 问题 而 
发 明 的 算法 正好 可 以 用 来 解决 另 一 种 问题 。 应 用 程序 员 对 于 归 约 的 概念 已 经 很 熟悉 了 (无论 是 否 明 
确 地 知道 这 一 点 ) 一 一 每 次 你 在 使 用 解决 问题 B 的 方法 来 解决 问题 A 时 ,你 都 是 在 将 A 归 约 为 B。 
实际 上 , 实现 算法 的 一 个 目标 就 是 使 算法 的 适用 性 尽 可 能 广泛 ,使 得 问题 的 归 约 更 简单 。 作 为 例子 ， 
我 们 先 看 看 几 个 简单 的 排序 问题 。 很 多 这 种 问题 都 以 算法 测验 的 形式 出 现 ， 而 解决 它们 的 第 一 想法 
往往 是 平方 级 别 的 暴力 破解 。 但 很 多 情况 下 如 果 先 将 数据 排序 ， 那 么 解决 剩 下 的 问题 就 只 需要 线性 
级 别 的 时 间 了 ， 这 样 归 约 后 的 运行 时 间 的 增长 数量 级 就 由 平方 级 别 降低 到 了 线性 对 数 级 别 。 
2.5.3.1 找 出 重复 元 素 : 

在 一 个 Comparable 对 象 的 数组 中 是 否 存在 重复 元 素 ” 有 多 少 重复 元 素 ? 哪个 值 出 现 得 最 频 
繁 ?对 于 小 数组 ， 用 平方 级 别 的 算法 将 所 有 元 素 互相 比较 一 遍 就 足以 解答 这 些 问题 。 但 这 么 做 对 于 
大 数组 行 不 通 。 但 有 了 排序 ， 你 就 能 在 线性 对 数 的 时 间 内 回答 这 些 问 题 : 首先 将 数组 排序 ， 然 后 遍 
历 有 序 的 数组 ， 记 录 连 续 出 现 的 重复 元 素 即 可 。 例 如 ， 下 面 就 是 一 段 统计 数组 中 不 重复 的 元 素 个 数 
的 代码 。 只 要 稍稍 修改 这 段 代 码 你 就 能 回答 上 面 的 问题 ， 还 可 以 打印 所 有 不 同 元 素 的 值 、 所 有 重复 
元 素 的 值 ， 等 等 ， 即 使 数组 很 大 也 无 妨 。 


2.5.3.2 排名 
Quick. sort(a); 


一 组 排列 (或 是 排名 ) 就 是 一 组 个 整 
数 的 数组 ， 其 中 0 到 N-1 的 每 个 数 都 只 出 现 
一 次 。 两 个 排列 之 间 的 Kendall tau 距离 就 是 


int count = 1; // 假设 a.length > 0. 
for Cint i = 1; i < a,length; i++) 
if (a[i].compareTo(a[i-1]) != 0) 


CouNt++; 
在 两 组 数列 中 顺序 不 同 的 数 对 的 数目 。 例 如 ， 
0316254 和 1036425 之 间 的 Kendall tau 
距离 是 4， 因 为 0-1、3-1、2-4、5-4 这 4 对 数 
字 在 两 组 排列 中 的 相对 顺序 不 同 ， 但 其 他 数字 的 相对 顺序 都 是 相同 的 。 这 种 统计 方法 的 应 用 十 分 广 
泛 。 在 社会 学 中 它 被 用 于 研究 社会 选择 和 投票 理论 ， 在 分 子 生物 学 中 被 用 于 使 用 基因 表达 图 谱 比较 
基因 ， 在 网 络 中 被 用 于 搜索 引擎 结果 的 排名 ， 等 等 。 某 个 排列 和 标准 排列 即 每 个 元 素 都 在 正确 位 
置 上 的 排列 ) 的 Kendall tau 距离 就 是 其 中 逆序 数 对 的 数量 。 根 据 插入 排序 设计 一 个 平方 级 别 的 算法 
来 计算 它 并 不 困难 ( 请 回想 2.1 节 中 的 命题 C ) 。 高 效 地 计算 Kendall tau 距离 可 以 留 给 已 经 熟悉 那 
些 经 典 的 排序 算法 的 程序 员 ( 或 者 学 生 ) 作为 一 个 有 趣 的 练习 ( 请 见 练习 2.5.19 ) 。 
2.5.3.3 ”优先 队列 

在 2.4 节 中 我 们 已 经 见 过 两 个 被 归 约 为 优先 队列 操作 的 问题 的 例子 。 一 个 是 2.4.2.1 节 中 的 
TopM， 它 能 够 找到 输入 流 中 M 个 最 大 的 元 素 ; 另 一 个 是 2.4.4.7 节 中 的 Multiway， 它 能 够 将 M 个 
输入 流 归 并 为 一 个 有 序 的 输出 流 。 这 两 个 问题 都 可 以 轻易 用 长 度 为 M 的 优先 队列 解决 。 
2.5.3.4 ”中 位 数 与 顺序 统计 

一 个 和 排序 有 关 但 又 不 需要 完全 排序 的 重要 应 用 就 是 找 出 一 组 元 素 的 中 位 数 ( 中 间 值 ， 它 不 大 
于 一 半 的 元 素 又 不 小 于 另 一 半 元 素 ) 。 查 找 中 位 数 在 统计 学 计算 和 许多 数据 处 理 的 应 用 程序 中 都 很 
常见 。 它 是 一 种 特殊 的 选择 :找到 一 组 数 中 的 第 上 小 的 元 素 ( 如 下 页 代码 所 示 ) 。“ 选 择 ” 在 处 理 
实验 数据 和 其 他 数据 中 应 用 广泛 ,使 用 中 位 数 和 其 他 顺序 统计 来 切 分 一 个 数组 也 很 常见 。 一 般 ， 我 
们 只 需要 处 理 一 个 很 大 的 数组 中 的 一 小 部 分 ， 在 这 种 情况 下 ， 一 个 程序 可 以 选择 ， 比 如 将 前 10% 的 
元 素 完全 排序 即 可 。2.4 节 中 我 们 的 TopM 用 优先 队列 为 无 界限 输入 解决 了 这 个 问题 。 除 了 TopM， 
另 一 种 选择 是 直接 将 数组 中 的 元 素 排序 。 在 调用 Quick.sort(a) 之 后 ,数组 中 的 个 最 小 的 元 素 
就 是 数组 的 前 个 元 素 ， 其 中 小 于 数组 长 度 。 但 这 种 方法 需要 调用 排序 ， 所 以 运行 时 间 的 增长 数 


统计 a 中 不 重复 元 素 的 个 数 


量 级 是 线性 对 数 的 。 

还 有 更 好 的 办 法 吗 ? 当 上 很 小 或 者 很 大 时 
找 出 数组 中 的 个 最 小 值 都 很 简单 ， 但 当 上 和 数 
组 大 小 成 一 定 比 例 时 这 个 任务 就 变 得 比较 困难 
了 ， 比 如 找到 中 位 数 (好 2) 。 让 人 惊讶 的 是 
其 实 上 面 的 selectQ 方法 能 够 在 线性 时 间 内 解 
决 这 个 问题 ( 这 个 实现 需要 在 用 例 中 进行 类 型 转 
换 ; 去掉 这 个 限制 的 代码 请 见 本 书 的 网 站 ) 。 
为 了 完成 这 个 任务 ，select() 用 两 个 变量 hi 
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public static Comparable 
select(Comparable[] a, int k) 
{ 
StdRandom. shuffle(a); 
int lo = 0, hi = a.length - 1; 
while (hi > 10) 
{ 


int j = partition(a, 10, hi); 
if (j == k) return a[k]; 
else if (j > k) hi=j-1; 
else if (0 <k) lo=j+1; 


return a[k]; 


和 1o 来 限制 含有 要 选择 的 人 元 素 的 子 数 组 , 并  } 
用 快速 排序 的 切 分 法 来 缩小 子 数组 的 范围 。 请 
回想 partition() 方法 ， 它 会 将 数组 的 a[10] 找到 一 组 数 中 的 第 如 元素 
至 a[hi] 重新 排列 并 返回 一 个 整数 j 使 得 ar1o. .j-1] 小 于 等 于 a[j] 且 a[j+1..hi] 大 于 等 
于 a[j]。 那 么 ,如果 k = j， 问 题 就 解决 了 。 如 果 k < j， 我 们 就 需要 切 分 左 子 数组 ( 令 hi = 
j-1) ;如果 k > j， 我们 则 需要 切 分 右 子 数组 ( 令 16 = j+1) 。 这 个 循环 保证 了 数组 中 1o 左 
边 的 元 素 都 小 于 等 于 a[10. .hi] ， 而 hi 右边 的 元 素 都 大 于 等 于 a[1o. .hi] 。 我 们 不 断 地 切 分 直 
到 子 数组 中 只 含有 第 个 元 素 ， 此 时 a[k] 含有 最 小 的 (hk+1 ) 个 元 素 ，a[0] 到 a[k-1] 都 小 于 等 
于 a[k]， 而 a[k+1] 及 其 后 的 元 素 都 大 于 等 于 a[k]。 至 于 为 何 这 个 算法 是 线性 级 别 的 ， 是 因为 
假设 每 次 都 正好 将 数组 二 分 ， 那么 比较 的 总 次 数 为 (N+N/2+N/4+N/8…) ， 直 到 找到 第 的 元 素 
这 个 和 显然 小 于 2V。 和 快速 排序 一 样 ， 这 里 也 需要 一 点 数学 知识 来 得 到 比较 的 上 界 ， 它 比 快速 排 
序 略 高 。 这 个 算法 和 快速 排序 的 另 一 个 共同 点 是 这 段 分 析 依赖 于 使 用 随机 的 切 分 元 素 ， 因 此 它 的 
性 能 保证 也 来 自 于 概率 。 

用 快速 排序 的 切 分 来 查找 中 位 数 的 可 视 轨迹 如 图 2.5.2 所 示 。 


命题 U。 平 均 来 说 ， 基 于 切 分 的 选择 算法 的 运行 时 间 是 线性 级 别 的 。 


证 明 。 该 命题 的 分 析 和 快速 排序 的 命题 K 的 证 明 类 似 ， 但 要 复杂 得 多 。 结 论 就 是 算法 的 平均 比 
较 次 数 为 ~2N+2kin(WA)+2(N-bIn(VICVN-)， 这 对 于 所 有 合法 的 大 值 都 是 线性 的 。 例 如 ， 这 个 
公式 说 明 找到 中 位 数 (k=N12) 平均 需要 ~(2+2In2)N 次 比较 。 注 意 ， 最 坏 的 情况 下 算法 的 运行 时 
间 仍 然 是 平方 级 别 的 ， 但 与 快速 排序 一 样 ， 将 数组 乱 序 化 可 以 有 效 防止 这 种 情况 出 现 。 


设计 一 个 能 够 保证 在 最 坏 情况 下 也 只 需要 线性 比较 次 数 的 算法 是 计算 复杂 性 领域 的 一 个 经 典 问 
题 ， 但 到 目前 为 止 仍然 没有 一 个 能 够 实用 的 算法 。 


2.5.4 ”排序 应 用 一 览 

排序 的 直接 应 用 极为 普遍 和 广泛 ， 无 法 一 一 列举 。 你 可 以 将 歌曲 按照 曲名 或 是 歌手 排序 ， 将 邮 
件 按照 时 间或 是 发 件 人 排序 或 者 来 电 按照 时 间或 来 电 者 排序 ) ， 将 照片 按照 日 期 排序 。 大 学 会 将 
学 生 的 账户 按照 姓名 或 是 ID 排序 。 信 用 卡 公司 会 将 上 百 万 甚至 上 亿 的 交易 按照 日 期 或 是 金额 排序 。 
科学 家 会 将 实验 数据 按照 时 间或 其 他 标准 排序 来 精确 地 模拟 现实 世界 ， 从 粒子 或 者 天 体 的 运动 ， 到 
物质 的 结构 ， 到 社会 中 的 人 际 关系 。 实 际 上 ， 很 难 找到 和 排序 无 关 的 任何 计算 性 应 用 ! 为 了 更 好 地 
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的 例子 , 其 中 几 个 我 们 会 在 本 书 的 其 他 章节 更 加 详细 地 研究 。 
2.5.4.1 商业 计算 

世界 已 经 被 信息 的 海洋 所 淹没 。 政 府 组 织 、 金 融 机 构 和 商 本 anjn iil, [| 
业 公司 都 依 下 排序 来 管理 大 量 的 信息 。 无 论 这 些 信息 是 按照 名 
学 贡 痢 数字 挤 玉 的 湛 导 、 控 月 且 期 丰 者 全 岂 六 序 的 交易 、 控 质 。。 下午 有 obi |. 机 jh 
邮编 或 者 地 址 排序 的 邮件 、 按 照 名 称 或 者 日 期 排序 的 文件 等 ， 
处 理 这 些 数据 必然 需要 排 央 算 法 。_ 般 这 些 信息 都 会 存储 在 大 wallnkilinlbahlbnlnn 
型 的 数据 库 里 ， 能 够 按照 多 个 键 排序 以 提高 搜索 效率 。 一 个 普 








遍 使 用 的 有 效 方法 是 先 收集 新 的 信息 并 添加 到 数据 库 ， 将 其 按 mall 
感 兴趣 的 键 排序 ， 然 后 将 每 个 键 的 排序 结果 归并 到 已 存在 的 数据 1o i hi 


库 中 。 从 计算 机 发 明 的 早期 开始 ， 我 们 学习 过 的 这 些 方法 就 已 经 
被 用 来 构建 庞大 的 基础 数据 ， 处 理 它们 的 方法 则 是 所 有 这 些 商业 














活动 的 基石 。 今 天 ， 我 们 能 够 按部就班 地 处 理 上 百 万 甚至 上 亿 大 ml 

小 的 数组 一 没有 线性 对 数 级 别 的 排序 算法 也 就 没 法 将 它们 排 

序 ， 进 一 步 处 理 这 些 数据 也 会 极端 困难 ， 甚 至 是 不 可 能 的 。 Il 

2.5.4.2 ”信息 搜索 中 位 数 
有 序 的 信息 确保 我 们 可 以 用 经 典 的 二 分 查找 法 ( 见 第 1 | 


章 ) 来 进行 高 效 的 搜索 。 你 会 看 到 许多 其 他 种 类 的 查询 也 可 
以 用 相同 的 方式 完成 。 有 多 少 元 素 小 于 给 定 的 元 素 ? 有 哪些 图 25.2 ee ( 另 见 





在 给 定 的 范围 之 内 ? 在 第 3 章 中 我 们 不 但 会 解答 这 些 问题 ， 彩 

还 会 具体 学 习 排 序 算法 和 二 分 查找 的 各 种 扩展 ， 使 得 我 们 能 够 用 删除 和 插入 的 混合 操作 解答 这 些 问 
题 ， 并 保证 所 有 操作 的 对 数 级 别 的 性 能 

2.5.4.3 ”运筹 学 


运筹 学 指 的 是 研究 数学 模型 并 将 其 应 用 于 问题 解决 和 决策 的 领域 。 在 本 书 中 我 们 会 看 到 若干 运 
筹 学 和 算法 研究 的 关系 的 例子 。 这 里 我 们 先 来 看 排序 算法 在 运筹 学 的 经 典 问题 一 一 调度 中 的 应 用 。 
假设 我 们 需要 完成 N 个 任务 ,第 j 个 任务 需要 耗 时 ; 秒 。 我 们 需要 在 完成 所 有 任务 的 同时 尽量 确保 
客户 满意 ， 将 每 个 任务 的 平均 完成 时 间 最 小 化 。 按 照 最 短 优先 的 原则 ， 只 要 我 们 将 任务 按照 处 理 时 
间 升 序 排列 就 可 以 达到 目标 。 因 此 我 们 可 以 将 任务 按照 耗 时 排序 ， 或 是 将 它们 插入 到 一 个 最 小 优先 
队列 中 。 如 果 加 上 其 他 各 种 限制 ， 我 们 可 以 得 到 不 同 的 调度 问题 ， 这 在 工业 界 的 应 用 中 很 常见 ， 也 
被 很 好 地 研究 过 。 另 一 个 例子 是 负载 均衡 问题 。 假 设 我 们 有 M 个 相同 的 处 理 器 以 及 和 个 任务 ,我 
们 的 目标 是 用 尽 可 能 短 的 时 间 在 这 些 处 理 器 上 完成 所 有 的 任务 。 这 个 问题 是 NP- 困难 的 ( 请 见 第 6 
章 ) ， 因 此 我 们 实际 上 不 可 能 算出 一 种 最 优 的 方案 。 但 一 种 较 优 调 度 方法 是 最 大 优先 。 我 们 将 任务 
按照 耗 时 降序 排列 ， 将 每 个 任务 依次 分 配给 当前 可 用 的 处 理 器 。 要 实现 这 种 算法 ， 我 们 先 要 逆序 排 
列 这 些 任务 ， 然 后 为 W 个 处 理 器 维护 一 个 优先 队列 ， 每 个 元 素 的 优先 级 就 是 对 应 的 处 理 器 上 运行 
的 任务 的 耗 时 之 和 。 每 一 步 中 ， 我 们 都 删 去 优先 级 最 低 的 那个 处 理 器 ， 将 下 一 个 任务 分 配给 这 个 处 
理 器 ， 然 后 再 将 它 重 新 插入 优先 队列 。 
2.5.4.4 ”事件 驱动 模拟 

很 多 科学 上 的 应 用 都 涉及 模拟 ， 用 大 量 计算 来 将 现实 世界 的 某 个 方面 建 模 以 期 能 够 更 好 地 理解 
它 。 在 计算 机 发 明之 前 ， 科 学 家 们 除了 构建 数学 模型 之 外 别 无 选择 ， 而 现在 计算 机 模型 很 好 地 补充 
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了 这 些 数 学 模型 。 通 真 地 模拟 现实 世界 是 很 有 挑战 的 ， 而 使 用 正确 的 算法 使 得 我 们 能 够 在 有 限 的 时 
间 内 完成 这 些 模拟 ， 而 不 是 无 奈 地 接受 不 精确 的 实验 结果 或 是 无 尽 地 等 待 计算 的 完成 。 我 们 会 在 第 
6 章 中 展示 能 够 说 明 这 一 点 的 一 个 具体 例子 。 
2.5.4.5 ”数值 计算 

在 科学 计算 中 ， 精 确 度 非常 重要 ( 我 们 距离 真正 的 答案 有 多 远 ) ， 特 别 是 当 我 们 在 计算 机 中 使 
用 的 只 是 真正 的 实数 的 近似 值 一 一 浮 点 数 来 进行 上 百 万 次 计算 的 时 候 。 一 些 数值 计算 算法 使 用 优先 
队列 和 排序 来 控制 计算 中 的 精确 度 。 例 如 ， 在 求 曲 线 下 区 域 的 面积 时 ， 数 值 积分 的 一 个 方法 就 是 使 
用 一 个 优先 队列 存储 一 组 小 间隔 中 每 段 的 近似 精确 度 。 积 分 的 过 程 就 是 删 去 精确 度 最 低 的 间隔 并 将 
其 分 为 两 半 ( 这样 两 半 都 能 变 得 更 加 精确 ) ， 然 后 将 两 半 都 重新 加 入 优先 队列 。 如 此 这 般 ， 直 到 达 
到 预期 的 精确 程度 。 
2.5.4.6 组合 搜 索 

人 工 智能 领域 一 个 解决 “疑难 杂 症 ”的 经 典范 式 就 是 定义 一 组 状态 、 由 一 组 状态 演化 到 另 一 组 
状态 可 能 的 步 又 以 及 每 个 步骤 的 优先 级 ， 然 后 定义 一 个 起 始 状态 和 目标 状态 ( 也 就 是 问题 的 解决 办 
法 ) 。 著 名 的 A* 算法 的 解决 办 法 就 是 将 起 始 状 态 放 和 人 优先 队列 中 ， 然 后 重复 下 面 的 方法 直到 到 达 
目的 地 : 删 去 优先 级 最 高 的 状态 ， 然 后 将 能 够 从 该 状态 在 一 步 之 内 达到 的 所 有 状态 全 部 加 入 优先 队 
列 (除了 刚刚 删 去 的 那个 状态 之 外 ) 。 和 事件 驱动 模拟 一 样 ， 这 个 过 程 简直 就 是 为 优先 队列 量 身 定 
做 的 。 它 将 问题 的 解决 转化 为 了 定义 一 个 适当 的 优先 级 函数 问题 。 例 子 请 见 练习 2.5.32。 

除了 这 些 直接 应 用 之 外 (我们 只 说 了 很 小 的 一 部 分 而 已 ) ， 排 序 和 优先 队列 在 算法 设计 领域 也 
是 很 重要 的 抽象 概念 ， 因 此 本 书 会 经 常用 到 它们 。 下 面 我 们 举 了 一 些 本 书后 续 内 容 中 的 应 用 作为 例 
子 ， 它 们 都 依赖 于 本 章 中 的 排序 算法 和 优先 队列 数据 类 型 的 高 效 实现 。 

口 Prim 算法 和 Dijkstra 算法 

它们 都 是 第 4 章 中 的 经 典 算法 。 第 4 章 的 主题 是 图 的 处 理 算法 ， 图 是 由 结 点 和 连接 两 个 结 点 的 
边 组 成 的 一 种 重要 的 基础 模型 。 图 算法 的 基石 就 是 图 的 搜索 ， 也 就 是 一 个 结 点 一 个 结 点 地 查找 ， 优 
先 队 列 在 其 中 扮演 了 重要 的 角色 。 

口 Kruskal 算法 

这 是 图 中 的 加 权 图 的 另 一 个 经 典 算法 ， 其 中 边 的 处 理 顺序 取决 于 它 的 权重 。 算 法 的 运行 时 间 是 
由 排序 所 需 的 时 间 决 定 的 。 

口 堆 夫 曼 压 缩 

这 是 一 个 经 典 的 数据 压缩 算法 。 它 处 理 的 数据 中 的 每 个 元 素 都 有 一 个 小 整数 作为 权重 ， 而 处 理 
的 过 程 就 是 将 权重 最 小 的 两 个 元 素 归并 成 一 个 新 元 素 ， 并 将 其 权重 相 加 得 到 新 元 素 的 权重 。 使 用 优 
先 队列 可 以 立即 实现 这 个 算法 。 其 他 几 种 数据 压缩 算法 也 是 基于 排序 的 。 

口 字符 串 处 理 

字符 串 处 理 算法 在 现代 密码 学 和 基因 组 学 中 起 着 关键 性 的 作用 。 它们 也 常常 依赖 于 排序 算法 ( 一 
般 都 会 使 用 第 5 章 中 所 讨论 的 特殊 的 字符 串 排序 算法 ) 。 例 如 ， 在 第 6 章 中 我 们 在 学 习 找 出 给 定 字 
符 串 中 的 最 长 重复 子 字符 囊 算法 时 会 先 将 字符 串 的 后 缀 排序 。 


图 从 经 


问 Java 的 系统 库 中 有 优先 队列 这 种 数据 类 型 吗 ? 
答 有 , 请 见 java.uti1.priorityQueue。 
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图 练习 
2.5.1 在 下 面 这 段 String 类 型 的 compareTo() 方法 的 实现 中 ， 第 三 行 对 提高 运行 效率 有 何 帮助 ? 


public int compareTo(String that) 
{ 
if (this == that) return 0; // 这 一 行 
int n = Math.min(this. length(), that.lengthO); 
for (int i = 0; i < n; i++) 


if (this.charAt(i) < that.charAt(i)) return -1; 


else if (this.charAt(i) > that.charAt(i)) return +1; 
} 
return this.length() - that.length(); 
} 


2.5.2 ”编写 一 段 程序 ， 从 标准 输入 读 入 一 列 单词 并 打印 出 其 中 所 有 由 两 个 单词 组 成 的 组 合 词 。 例 如 ， 如 
果 输 入 的 单词 为 after、thought 和 afterthought， 那 么 afterthought 就 是 一 个 组 合 词 。 

2.5.3 找 出 下 面 这 段 账户 余额 Balance 类 的 实现 代码 的 错误 。 为 什么 compareTo() 方法 对 Comparable 
接口 的 实现 有 缺陷 ? 


public class Balance implements Comparable<Balance> 
人 


private double amount; 
public int compareTo(Balance that) 


if (this.amount < that.amount - 0.005) return 移入 的 扫 守 相 
-1; 1-0ct-28 2 3500000 
if Cthis.amount > that.amount + 0.005) return 2-0ct-28 3850000 
+1; 3-0ct-28 2 4060000 
return 0; 4-0ct-28 4330000 
1 5-0ct-28 -4360000 


30-Dec-99 554680000 


} 
说 明 如 何 修正 这 个 问题 。 31-Dec-99 374049984 


2.5.4 实现 一 个 方法 String[] dedup(String[] a)， 返回 一 个 3-Jan-00 ”931800000 
有 序 的 a[] ， 并 删 去 其 中 的 重复 元 素 。 4-Jan-00 1009000000 
2.5.5 说 明 为 何 选择 排序 是 不 稳定 的 。 ey 
2.5.6 ”用 递归 实现 selectO)。 输出 
2.5.7 用 select() 找 出 N 个 元 素 中 的 最 小 值 平均 大 约 需要 多 少 19-Aug-40 130000 
次 比较 ? 26-Aug-40 160000 
2.5.8 编写 一 段 程序 Frequency， 从 标准 输入 读 取 一 列 字符 串 并 a 
按照 字符 串 出 现 频率 由 高 到 低 的 顺序 打印 出 每 个 字符 串 及 23-Jun-42 210000 
其 出 现 次 数 。 Ra 
2.5.9 为 将 右 侧 所 示 的 数据 排序 编写 一 个 新 的 数据 类型 。 0 
2.5.10 创建 一 个 数据 类 型 Version 来 表示 软件 的 版 本 ， 例 如 15-Ju1-02 2574799872 
115.1.1、115.10.1、115.10.2。 为 它 实现 Comparable 接口 ， 19-]u1-02 2654099968 


其 中 115.1.1 的 版 本 低 于 115.10.1。 人 


2.5.11 
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描述 排序 结果 的 一 种 方法 是 创建 一 个 保存 0 到 a.1ength-1 的 排列 p[] ， 使 得 p[i] 的 值 为 a[i] 
元 素 的 最 终 位 置 。 用 这 种 方法 描述 插入 排序 、 选 择 排序 、 希 尔 排序 、 归 并 排序 、 快 速 排序 和 堆 排 
序 对 一 个 含有 7 个 相同 元 素 的 数组 的 排序 结果 。 


图 提高 三 


2.5.12 


2.5.13 


2.5.14 


2.5.15 


2.5.16 


2.5.17 


2.5.18 


2.5.19 


2.5.20 


2.5.21 


2.5.22 


2.5.23 


调度 。 编 写 一 段 程序 SPTjava， 从 标准 输入 中 读 取 任务 的 名 称 和 所 需 的 运行 时 间 ， 用 2.5.4.3 节 
所 述 的 最 短处 理 时 间 优 先 的 原则 打印 出 一 份 调度 计划 ， 使 得 任务 完成 的 平均 时 间 最 小 。 

负载 均衡 。 编 写 一 段 程序 LPTjava， 接 受 一 个 整数 M 作为 命令 行 参数 ， 从 标准 输入 中 读 取 任 务 的 
名 称 和 所 需 的 运行 时 间 ， 用 2.5.4.3 节 所 述 的 最 长 处 理 时 间 优 先 原则 打印 出 一 份 调度 计划 ， 将 所 
有 任务 分 配给 M 个 处 理 器 并 使 得 所 有 任务 完成 所 需 的 总 时 间 最 少 。 

逆 域 名 排序 。 为 域名 编写 一 个 数据 类 型 Domain 并 为 它 实现 一 个 compareTo() 方法 ， 使 之 能 够 
按照 北向 的 域名 排序 。 例 如 ， 域 名 cs.princeton.edu 的 逆 是 edu.princeton.cs。 这 在 网 络 日 志 处 理 时 
很 有 用 。 提 示 : 使 用 s.sp1it("\\,") 将 域名 用 点 分 为 若干 部 分 。 编 写 一 个 Domain 的 用 例 ， 从 
标准 输入 读 取 域名 并 将 它们 按照 北 域名 有 序 地 打印 出 来 。 

垃圾 邮件 大 战 。 在 非法 垃圾 邮件 之 战 的 伊始 ， 你 有 一 大 串 来 自 各 个 域名 ( 也 就 是 电子 邮件 地 址 
中 四 符号 后 面 的 部 分 ) 的 电子 邮件 地 址 。 为 了 更 好 地 伪造 回信 地 址 ， 你 应 该 总 是 从 相同 的 域 中 
向 目标 用 户 发 送 邮件 。 例 如 ， 从 wayne@es.princeton.edu 向 rs@cs.princeton.edu 发 送 垃圾 邮件 就 
很 不 错 。 你 会 如 何 处 理 这 份 电子 邮件 列表 来 高 效 地 完成 这 个 任务 呢 ? 

公正 的 选举 。 为 了 避免 对 名 字 排 在 字母 表 靠 后 的 候选 人 的 偏见 ， 加 州 在 2003 年 的 州长 选举 中 将 
所 有 候选 人 按照 以 下 字母 顺序 排列 : 
RWQOJMVAHBSGZXNTCIEKUPDYFL 

创建 一 个 遵守 这 种 顺 辣 的 数据 类 型 并 编写 一 个 用 例 Califomia， 在 它 的 静态 方法 main() 中 将 字符 
串 按照 这 种 方式 排序 。 假 设 所 有 字符 串 全 部 都 是 大 写 的 。 

检测 稳定 性 。 扩 展 练习 2.1.16 中 的 check() 方法 ， 对 指定 数组 调用 sort() ， 如 果 排序 结果 是 稳 
定 的 则 返回 true， 理 则 返回 false。 不 要 假设 sort() 只 会 使 用 exch() 移动 数据 。 

强制 稳定 。 编 写 一 段 能 够 将 任意 排序 方法 变 得 稳定 的 封装 代码 ， 创 建 一 种 新 的 数据 类 型 作为 键 ， 
将 键 的 原始 索引 保存 在 其 中 ， 并 在 调用 sortQ 之 后 再 根据 保存 的 索引 恢复 键 的 原始 顺序 。 
Kendall tau 距离 。 编 写 一 段 程序 KendallTaujava， 在 线性 对 数 时 间 内 计算 两 组 排列 之 间 的 
Kendall tau 距离 。 

空 亲 时间。 假设 有 一 台 计 算 机 能 够 并 行 处 理 N 个 任务 。 编 写 一 段 程序 并 给 定 一 系列 任务 的 起 始 
时 间 和 结束 时 间 ， 找 出 这 台 机 器 最 长 的 空闲 时 间 和 最 长 的 繁忙 时 间 。 

多 维 排序 。 编 写 一 个 Vector 数据 类 型 并 将 d 维 整 型 向 量 排序 。 排 序 方法 是 先 按照 一 维 数字 排序 ， 
一 维 数字 相同 的 向 量 则 按照 二 维 数字 排序 ， 再 相同 的 向 量 则 按照 三 维 数字 排序 ， 如 此 这 般 。 
股票 交易 。 投 资 者 对 一 只 股票 的 买卖 交易 都 发 布 在 电子 交易 市 场 中 。 他 们 会 指定 最 高 买 人 价 和 
最 低 卖 出 价 ， 以 及 在 该 价位 买卖 的 笔 数 。 编 写 一 段 程序 ,用 优先 队列 来 匹配 买 家 和 卖家 并 用 模 
拟 数据 进行 测试 。 可 以 使 用 两 个 优先 队列 ， 一 个 用 于 买 家 一 个 用 于 卖家 ， 当 一 方 的 报价 能 够 和 
另 一 方 的 一 份 或 多 份 报价 匹配 时 就 进行 交易 。 

选择 的 取样 : 实验 使 用 取样 来 改进 select() 函数 的 想法 。 提 示 : 使 用 中 位 数 可 能 并 不 总 是 有 效 。 
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2.5.24 
2.5.25 


2.5.26 


2.5.27 


2.5.30 


稳定 的 优先 队列 。 实 现 一 个 稳定 的 优先 队列 ( 将 重复 的 元 素 按照 它们 被 插入 的 顺序 返回 ) 
平面 上 的 点 。 为 表 1.2.3 的 Point20 类 型 编写 三 个 静态 的 比较 器 ， 一 个 按照 x 坐标 比较 ， 一 个 按 
照 了 坐标 比较 ， 一 个 按照 点 到 原点 的 距离 进行 比较 。 编 写 两 个 非 静态 的 比较 器 ， 一 个 按照 两 点 
到 第 三 点 的 距离 比较 ， 一 个 按照 两 点 相对 于 第 三 点 的 幅 角 比较 。 

简单 多 边 形 。 给 定 平面 上 的 NN 个 点 ， 用 它们 画 出 一 个 多 边 形 。 提 示 : 找到 y 坐标 最 小 的 点 p， 
在 有 多 个 最 小 y 坐标 的 点 时 取 x 坐标 最 小 者 ， 然 后 将 其 他 点 按照 以 p 为 原点 的 幅 角 大 小 的 顺序 
依次 连接 起 来 。 

平行 数组 的 排序 。 在 将 平行 数组 排序 时 ， 可 以 将 索引 排序 并 返回 一 个 index[] 数组 。 为 
Insertion 添加 一 个 indirectSortQ 方法 ， 接 受 一 个 Comparable 的 对 象 数组 a[] 作为 参 
数 ， 但 它 不 会 将 a[] 中 的 元 素 重新 排列 ， 而 是 返回 一 个 整形 数组 index[] 使 得 a[index[0]] 到 
a[index[N-1]] 正好 是 升序 的 。 

按 文件 名 排序 。 编 写 一 个 FileSorter 程序 ， 从 命令 行 接受 一 个 目录 名 并 打印 出 按照 文件 名 排序 后 
的 所 有 文件 。 提 示 : 使 用 File 数据 类 型 。 

按 大 小 和 最 后 修改 日 期 将 文件 排序 。 为 File 数据 类 型 编写 比较 器 ， 使 之 能 够 将 文件 按照 大 小 、 
文件 名 或 最 后 修改 日 期 将 文件 升序 或 者 降序 排列 。 在 程序 LS 中 使 用 这 些 比较 器 ， 它 接受 一 个 命 
令 行 参数 并 根据 指定 的 顺序 列 出 目录 的 内 容 。 例 如 ，"-t" 指 按照 时 间 蕉 排序 。 支 持 多 个 选项 以 
消除 排序 位 次 相同 者 ， 同 时 必须 确保 排序 的 稳定 性 。 

Boemer 定理 。 真 假 判 断 : 如 果 你 先 将 一 个 矩 阵 的 每 一 列 排序 ， 再 将 矩阵 的 每 一 行 排序 ， 所 有 的 
列 仍 然 是 有 序 的 。 证 明 你 的 结论 。 





图 实验 是 





358| 











2.5.31 


2.5.32 


2.5.33 


重复 元 素 。 编 写 一 段 程序 ， 接 受命 令 行 参数 M、N 和 T， 然 后 使 用 正文 中 的 代码 进行 T 饥 实验: 
生成 和 N 个 0 到 M-1 间 的 int 值 并 计算 重复 值 的 个 数 。 令 T=10，N=1I0 、10"、10 和 10 以 及 
MEN/2、N 和 2MN。 根 据 概率 论 ， 重 复 值 的 个 数 应 该 约 为 (1-e*)， 其 中 a=N/M。 打 印 一 张 表 格 
来 确认 你 的 实验 验证 了 这 个 公式 。 

8 字 主 题 。8 字谜 题 是 S. loyd 于 19 世纪 70 年 代 发 明 的 一 个 游戏 。 游 戏 需要 一 个 三 乘 三 的 九宫 格 ， 
其 中 八 格 中 填 上 了 1 到 8 这 8 个 数字 ， 一 格 空 着 。 你 的 目标 就 是 将 所 有 的 格子 排序 。 可 以 将 一 
个 格子 向 上 下 或 者 左右 移动 ( 但 不 能 是 对 角 线 方向 ) 到 空白 的 格子 中 。 编 写 一 个 程序 用 A* 算法 
解决 这 个 问题 。 先 用 到 达 九 宫 格 的 当前 位 置 所 震 的 步 数 加 上 错位 的 格子 数量 作为 优先 级 函数 ( 注 
意 ， 步 数 至 少 大 于 等 于 错位 的 格子 数 ) 。 尝 试用 其 他 函数 代替 错位 的 格子 数量 ， 比 如 每 个 格子 
距离 它 的 正确 位 置 的 曼哈顿 距离 ， 或 是 这 些 距 离 的 平方 之 和 。 

随机 交易 。 开 发 一 个 接受 参数 N 的 生成 器 ， 根 据 你 能 想到 的 任意 假设 条 件 生 成 W 个 随机 的 
Transaction 对 象 ( 请 见 练习 2.1.21 和 练习 2.1.22 )。 对 于 N=10 、10"、10 和 10', 比较 用 希 尔 排序 、 
归并 排序 、 快 速 排序 和 堆 排序 将 入 个 交易 排序 的 性 能 。 


1 第 3 章 查找 


现代 计算 机 和 网 络 使 我 们 能 够 访问 海量 的 信息 。 高 效 检索 这 些 信息 的 能 力 是 处 理 它们 的 重要 前 
提 。 本 章 描述 的 都 是 数 十 年 来 在 广泛 应 用 中 经 过 实践 检验 的 经 典 查找 算法 。 没 有 这 些 算法 ， 现 代 信 
息 世界 的 基础 计算 设施 都 无 从 谈 起 。 
我 们 会 使 用 符号 表 这 个 词 来 描述 一 张 抽象 的 表格 ， 我 们 会 将 信息 ( 值 ) 存储 在 其 中 ， 然 后 按照 
指定 的 键 来 搜索 并 获取 这 些 信息 。 键 和 值 的 具体 意义 取决 于 不 同 的 应 用 。 符 号 表 中 可 能 会 保存 很 多 
键 和 很 多 信息 ， 因 此 实现 一 张 高 效 的 符号 表 也 是 一 项 很 有 挑战 性 的 任务 。 
符号 表 有 时 被 称 为 字典 , 类 似 于 那 本 将 单词 的 释义 按照 字母 顺序 排列 起 来 的 历史 悠久 的 参考 书 。 
在 英语 字典 里 ， 键 就 是 单词 ， 值 就 是 单词 对 应 的 定义 、 发 音 和 词 源 。 符 号 表 有 时 又 叫做 索引 ， 即 书 
本 最 后 将 术语 按照 字母 顺序 列 出 以 方便 查找 的 那 部 分 。 在 一 本 书 的 索引 中 ， 键 就 是 术语 ， 而 值 就 是 
书 中 该 术语 出 现 的 所 有 页 码 。 
在 说 明了 基本 的 API 和 两 种 重要 的 实现 之 后 ， 我 们 会 学 习 用 三 种 经 典 的 数据 类 型 来 实现 高 效 的 
符号 表 : 二 又 查找 树 、 红 黑 树 和 散 列 表 。 在 总 结 中 我 们 会 看 到 它们 的 若干 扩展 和 应 用 ， 它 们 的 实现 359 
都 有 赖 于 我 们 在 本 章 中 将 会 学 到 的 高 效 算法 361 
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3.1 符号 表 


符号 表 最 主要 的 目的 就 是 将 一 个 键 和 一 个 值 联系 起 来 。 用 例 能 够 将 一 个 键 值 对 插入 符号 表 并 希 
望 在 之 后 能 够 从 符号 表 的 所 有 键 值 对 中 按照 键 直接 找到 相对 应 的 值 。 本 章 会 讲解 多 种 构造 这 样 的 数 
据 结构 的 方法 ， 它 们 不 光 能 够 高 效 地 插入 和 查找 , 还 可 以 进行 其 他 几 种 方便 的 操作 。 要 实现 符号 表 ， 
我 们 首先 要 定义 其 背后 的 数据 结构 ， 并 指明 创建 并 操作 这 种 数据 结构 以 实现 插入 、 查 找 等 操作 所 需 
的 算法 。 

查找 在 大 多 数 应 用 程序 中 都 至 关 重 要 ， 许 多 编程 环境 也 因此 将 符号 表 实现 为 高 级 的 抽象 数据 结 
构 ， 包 括 Java 一 一 我 们 会 在 3.5 节 中 讨论 Java 的 符号 表 实现 。 表 3.1.1 给 出 的 例子 是 在 一 些 典型 的 
应 用 场景 中 可 能 出 现 的 键 和 值 。 我 们 马上 会 看 到 一 些 参考 性 的 用 例 ，3.5 节 的 目的 就 是 向 你 展示 如 
何在 程序 中 有 效 地 使 用 符号 表 。 本 书 中 我 们 还 会 在 其 他 算法 中 使 用 符号 表 。 


定义 。 符 号 表 是 一 种 存储 键 值 对 的 数据 结构 ， 支 持 两 种 操作 : 插入 (put) ， 即 将 一 组 新 的 键 值 
对 存 入 表 中 ; 查找 (get) ， 即 根据 给 定 的 键 得 到 相应 的 值 。 


表 3.1.1 典型 的 符号 表 应 用 





应 用 查找 的 目的 键 值 
字典 找 出 单词 的 释义 单词 释义 
图 书 索引 找 出 相关 的 页 码 术语 一 串 页 码 
文件 共享 找到 歌曲 的 下 载 地 址 歌曲 名 计算 机 ID 
账户 管理 处 理 交易 账户 号 码 交易 详情 
网 络 搜索 找 出 相关 网 页 关键 字 网 页 名 称 
编译 器 找 出 符号 的 类 型 和 值 变量 名 类 型 和 值 
3.1.1 API 


符号 表 是 一 种 典型 的 抽象 数据 类 型 ( 请 见 第 1 章 ) : 它 代表 着 一 组 定义 清晰 的 值 以 及 相应 的 操 
作 , 使 得 我 们 能 够 将 类 型 的 实现 和 使 用 区 分 开 来 。 和 以 前 一 样 , 我 们 要 用 应 用 程序 编程 接口 (API) 
来 精确 地 定义 这 些 操作 ( 如 表 3.1.2 所 示 ) ， 为 数据 类 型 的 实现 和 用 例 提供 一 份 “ 契 约 ”。 
表 3.1.2 一 种 简单 的 泛 型 符号 表 API 
public class ST<Key, Value> 





STO 创建 一 张 符号 表 

void put(Key key, Value, val) 将 键 值 对 存 人 表 中 ( 若 值 为 空 则 将 键 key 从 表 中 删除 ) 
Value get(Key key) 获取 键 key 对 应 的 值 ( 若 键 key 不 存在 则 返回 nu11 ) 
void delete(Key key) 从 表 中 删 去 键 key ( 及 其 对 应 的 值 ) 

boolean contains(Key key) 键 key 在 表 中 是 否 有 对 应 的 值 

boolean isEmpty() 表 是 否 为 空 

int sizeO 表 中 的 键 值 对 数量 
Iterable<Key> keys() 表 中 的 所 有 键 的 集合 


在 查看 用 例 代 码 之 前 ， 为 了 保证 代码 的 一 致 、 简 洁 和 实用 ， 我 们 要 先 说 明 具体 实现 中 的 几 个 设 
计 决 策 。 
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3.1.1.1 泛 型 

和 排序 一 样 ， 在 设计 方法 时 我 们 没有 指定 处 理 对 象 的 类 型 ， 而 是 使 用 了 泛 型 。 对 于 符号 表 ， 我 
们 通过 明确 地 指定 查找 时 键 和 值 的 类 型 来 区 分 它们 的 不 同 角色 ， 而 不 是 像 2.4 节 的 优先 队列 那样 将 
键 和 元 素 本 身 混为一谈 。 在 考虑 了 这 份 基本 的 API 后 (例如 ， 这 里 没有 说 明 键 的 有 序 性 ) ， 我 们 会 
用 Comparable 的 对 象 来 扩展 典型 的 用 例 ， 这 也 会 为 数据 类 型 带 来 许多 新 的 方法 。 
3.1.1.2 重复 的 键 

我 们 的 所 有 实现 都 遵循 以 下 规则 : 

口 每 个 键 只 对 应 着 一 个 值 ( 表 中 不 允许 存在 重复 的 键 ) ; 

口 当 用 例 代码 向 表 中 存 人 的 键 值 对 和 表 中 已 有 的 键 ( 及 关联 的 值 ) 冲突 时 , 新 的 值 会 替代 旧 的 值 。 

这 些 规则 定义 了 关联 数组 的 抽象 形式 。 你 可 以 将 符号 表 想 象 成 一 个 数组 ， 键 即 索 引 ， 值 即 数 
组 的 元 素 。 在 一 个 一 般 的 数组 中 ， 键 就 是 整 型 的 索引 ， 我 们 用 它 来 快速 访问 数组 的 内 容 ; 在 一 个 [363 
关联 数组 ( 符号 表 ) 中 ， 键 可 以 是 任意 类 型 ， 但 我 们 仍然 可 以 用 它 来 快速 访问 数组 的 内 容 。 一 些 
编程 语言 ( 非 Java ) 直接 支持 程序 员 使 用 st[key] 来 代替 st.get(key)，st[key]=val 来 代替 
st.put(key，val)， 其 中 key ( 键 ) 和 val ( 值 ) 都 可 以 是 任意 类 型 的 对 象 。 
3.1.1.3 空 (null) 键 

键 不 能 为 室 。 和 Java 中 的 许多 其 他 机 制 一 样 ， 使 用 空 键 会 产生 一 个 运行 时 异常 〈 请 见 本 节 答 疑 
的 第 三 条 ) 。 
3.1.1.4 空 CnulD) 值 

我 们 还 规定 不 允许 有 空 值 。 这 个 规定 的 直接 原因 是 在 我 们 的 API 定 义 中 ， 当 键 不 存在 时 get() 
方法 会 返回 空 , 这 也 意味 着 任何 不 在 表 中 的 键 关联 的 值 都 是 空 。 这 个 规定 产生 了 两 个 ( 我 们 所 期 望 的 ) 
结果 : 第 一 ,我 们 可 以 用 get 0 方法 是 否 返 回 空 来 测试 给 定 的 键 是 否 存 在 于 符号 表 中 ; 第 二 ， 我们 
可 以 将 空 值 作为 put() 方法 的 第 二 个 参数 存 人 表 中 来 实现 删除 ， 也 就 是 3.1.1.5 节 的 主要 内 容 。 
3.1.1.5 删除 操作 

在 符号 表 中 ， 删 除 的 实现 可 以 有 两 种 方法 : 延 时 删除 ， 也 就 是 将 键 对 应 的 值 置 为 空 ， 然 后 在 
某 个 时 候 删 去 所 有 值 为 空 的 键 ; 或 是 即时 删除 ， 也 就 是 立刻 从 表 中 删除 指定 的 键 。 刚 才 已 经 说 过 ， 
put(key，nu11) 是 delete(key) 的 一 种 简单 的 ( 延 时 型 ) 实现 。 而 实现 ( 即时 型 ) delete() 
就 是 为 了 替代 这 种 默认 的 方案 。 在 我 们 的 符号 表 实现 中 不 会 使 用 默认 的 方案 ， 而 在 本 书 的 网 站 上 
putO 实现 的 开头 有 这 样 一 句 防御 性 代码 : 

if (val == nul11) { delete(key); return; } 

这 保证 了 符号 表 中 任何 键 的 值 都 不 为 空 。 为 了 节省 版 面 我 们 没有 在 本 书 中 附 上 这 段 代码 (我们 
也 不 会 在 调用 put() 时 使 用 nu11 ) 。 
3.1.1.6 “便捷 方法 

为 了 用 例 代码 的 清晰 ,我们 在 API 中 加 入 了 contains() 和 isEmpty() 方法 ， 它 们 的 实现 如 
表 3.1.3 所 示 ， 只 需要 一 行 。 

















表 3.1.3 默认 实现 
方 ” 法 默认 实现 
void delete(Key key) putCkey, nu11); 
boolean contains(key) return get(key) !- null; 


boolean isEmptyO) return size() == 0; 
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为 节省 篇 幅 ， 我 们 不 想 重复 这 些 代 码 ， 但 我 们 约定 它们 存在 于 所 有 符号 表 API 的 实现 中 ,用 例 
程序 可 以 自由 使 用 它们 。 
3.1.1.7 迁 代 

为 了 方便 用 例 处 理 表 中 的 所 有 键 值 ， 我 们 有 时 会 在 API 的 第 一 行 加 上 implements Interable 
<Key> 这 句 话 ， 强 制 所 有 实现 都 必须 包含 iteratorQ 方法 来 返回 一 个 实现 了 hasNext() 和 
next() 方法 的 迭代 器 ， 如 1.3 节 的 栈 和 队列 所 述 。 但 是 对 于 符号 表 我 们 采用 了 一 个 更 简单 的 方法 。 
我 们 定义 了 keys 0 方法 来 返回 一 个 Interable<Key> 对 象 以 方便 用 例 遍 历 所 有 的 键 。 这 么 做 是 为 
了 和 以 后 的 有 序 符号 表 的 所 有 方法 保持 一 致 ， 使 得 用 例 可 以 遍历 表 的 键 集 的 一 个 指定 的 部 分 。 
3.1.1.8” 键 的 等 价 性 

要 确定 一 个 给 定 的 键 是 否 存在 于 符号 表 中 ， 首 先 要 确立 对 象 等 价 性 的 概念 。 我 们 在 1.2.5.8 节 
深入 讨论 过 这 一 点 。 在 Java 中 ， 按 照 约定 所 有 的 对 象 都 继承 了 一 个 equals() 方法 ，Java 也 为 它 
的 标准 数据 类 型 例如 Integer、Double 和 String 以 及 一 些 更 加 复杂 的 类 型 ， 如 File 和 URL， 实 
现 了 equals 0 方法 一 一 当 使 用 这 些 数据 类 型 时 你 可 以 直接 使 用 内 芥 的 实现 。 例 如 ， 如 果 x 和 y 都 
是 String 类 型 ， 当 上 且 仅 当 x 和 y 的 长 度 相同 且 每 个 位 置 上 的 字母 都 相同 时 ，x.equals(y) 返回 
true。 而 自 定义 的 键 则 需要 如 1.2 节 所 述 重 写 equa1sQ 方法 。 你 可 以 参考 我 们 为 Date 类 型 ( 请 
见 1.2.5.8 节 ) 实现 的 equal1s() 方法 为 你 自己 的 数据 类 型 实现 equa1s (0 方法 。 和 2.4.4.5 节 中 讨论 
的 优先 队列 一 样 ， 最 好 使 用 不 可 变 的 数据 类 型 作为 键 ， 否 则 表 的 一 致 性 是 无 法 保证 的 。 


3.1.2 ”有 序 符号 表 

典型 的 应 用 程序 中 ， 键 都 是 Comparable 的 对 象 ， 因 此 可 以 使 用 a.compareTo(b) 来 比较 a 和 
b 两 个 键 。 许 多 符号 表 的 实现 都 利用 了 Comparable 接口 带 来 的 键 的 有 序 性 来 更 好 地 实现 put() 和 
get() 方法 。 更 重要 的 是 在 这 些 实现 中 ， 我 们 可 以 认为 符号 表 都 会 保持 键 的 有 序 并 大 大 扩展 它 的 
API， 根 据 键 的 相对 位 置 定义 更 多 实用 的 操作 。 例 如 ， 假 设 键 是 时 间 ， 你 可 能 会 对 最 早 的 或 是 最 晚 的 
键 或 是 给 定时 间 段 内 的 所 有 键 等 感 兴 趣 。 在 大 多 数 情况 下 用 实现 put() 和 get() 方法 背后 的 数据 结 
构 都 不 难 实现 这 些 操作 。 于 是 ， 对 于 Comparable 的 键 ， 在 本 章 中 我 们 实现 了 表 3.1.4 中 的 API。 


表 3.1.4 一 种 有 序 的 泛 型 符号 表 的 API 


public class ST<Key extends Comparable<key>, Value> 





STO 创建 一 张 有 序 符号 表 
void put(Key key, Value, val) 将 键 值 对 存 入 表 中 ( 车 值 为 空 则 将 键 key 从 表 中 删除 ) 
Value get(Key key) 获取 键 key 对 应 的 值 ( 若 键 key 不 存在 则 返回 空 ) 
void delete(Key key) 从 表 中 删 去 键 key ( 及 其 对 应 的 值 ) 
boolean contains(Key key) 键 key 是 否 存 在 于 表 中 
boolean isEmptyO 表 是 否 为 空 
int sizeO 表 中 的 键 值 对 数量 
Key minO) 最 小 的 键 
Key max() 最 大 的 键 
Key floor(Key key) 小 于 等 于 key 的 最 大 键 
Key ceiling(Key key) 大 于 等 于 key 的 最 小 键 
int rank(Key key) 小 于 key 的 键 的 数量 


Key selectCint k) 排名 为 k 的 键 
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( 续 ) 
public class ST<Key extends Comparable<key>, Value> 
void deleteMin(O) 删除 最 小 的 键 
void deleteMax() 删除 最 大 的 键 
int size(Key lo, Key hi) [1o. .hi] 之 间 键 的 数量 
Iterable<key> keys(Key 1o，Kkey hi) [1o. .hi] 之 间 的 所 有 键 ， 已 排序 
Iterable<key> ”keys() 表 中 的 所 有 键 的 集合 ， 已 排序 


只 要 你 见 到 类 的 声明 中 含有 泛 型 变量 Key extends Comparable<key>， 那 就 说 明 这 段 程序 是 
在 实现 这 份 API， 其 中 的 代码 依赖 于 Comparable 的 键 并 且 实 现 了 更 加 丰富 的 操作 。 上 面 所 有 这 些 
操作 一 起 为 用 例 定义 了 一 个 有 序 符号 表 。 
3.1.2.1 最 大 键 和 最 小 键 

对 于 一 组 有 序 的 键 ， 最 自然 的 反应 就 是 查询 其 中 的 最 大 键 和 最 小 键 。 我 们 在 2.4 节 讨论 优先 队 
列 时 已 经 遇 到 过 这 些 操作 。 在 有 序 符号 表 中 ,我 们 也 有 方法 删除 最 大 键 和 最 小 键 (以 及 它们 所 关联 
的 值 ) 。 有 了 这 些 ， 符 号 表 就 具有 了 类 似 于 2.4 节 中 IndexMinPQO) 的 能 力 。 主 要 的 区 别 在 于 优先 
队列 中 可 以 存在 重复 的 键 但 符号 表 中 不 行 ， 而 且 有 序 符号 表 支持 的 操作 更 多 。 
3.1.2.2 向 下 取 整 和 向 上 取 整 

对 于 给 定 的 键 , 向 下 取 整 ( floor ) 操 作 ( 找 出 小 于 等 于 该 键 的 最 大 键 ) 和 向 上 取 整 ( ceiling ) 操 作 ( 找 
出 大 于 等 于 该 键 的 最 小 键 ) 有 时 是 很 有 用 的 。 这 两 个 术语 来 自 于 实数 的 取 整 函数 ( 对 一 个 实数 x 向 
下 取 整 即 为 小 于 等 于 x 的 最 大 整数 ， 向 上 取 整 则 为 大 于 等 于 x 的 最 小 整数 ) 。 
3.1.2.3 ”排名 和 选择 








检验 一 个 新 的 键 是 否 插入 合适 位 置 的 基 表 3.1.5 有 序 符号 表 的 操作 示例 
本 操作 是 排名 ( rank， 找 出 小 于 指定 键 的 键 3 全 
的 数量 ) 和 选择 (select, 找 出 排名 为 的 键 ) 。 minO—-09 Chicago 

















要 测试 一 下 你 是 否 完全 理解 了 它们 的 作用 ， Phoenix 
请 确认 对 于 0 到 sizeQO-1 的 所 有 1 都 有 ye 交 
i==rank(select(i))， 且 所 有 的 键 都 满足 Houston 
key==select《rank(key))。2.5 节 中 我 们 在 OO es i 
学 习 排 序 时 已 经 遇 到 过 对 这 两 种 操作 的 需求 select (7 —09: Seattle 
了 。 对 于 符号 表 ， 我 们 的 挑战 是 在 实现 插入 、 29 和 chao 
删除 和 查找 的 同时 快速 实现 这 两 种 操作 。 chicago 


Seattle 
Seattle 
Chicago 
Chicago 
Seattle 
Phoenix 


有 序 符号 表 的 操作 示例 如 表 3.1.5 所 示 。 
3.1.2.4 范围 查找 

给 定 范围 内 ( 在 两 个 给 定 的 键 之 间 ) 有 
多 少 键 ? 是 哪些 ? 在 很 多 应 用 中 能 够 回答 这 
些 问题 并 接受 两 个 参数 的 size() 和 keysO) 
方法 都 很 有 用 ， 特 别 是 在 大 型 数据 库 中 。 能 
够 处 理 这 类 查询 是 有 序 符号 表 在 实践 中 被 广 
泛 应 用 的 重要 原因 之 一 。 
3.1.2.5 ”例外 情况 

当 一 个 方法 需要 返回 一 个 键 但 表 中 却 没有 合适 的 键 可 以 返回 时 ， 我 们 约定 抛 出 一 个 异常 ( 另 一 
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种 合理 的 方法 是 在 这 种 情况 下 返回 空 ) 。 例 如 ， 在 符号 表 为 空 时 , min()、max()、deleteMin()、 
deleteMax() 、floor() 和 ceilingQ 都 会 抛 出 异常 ， 当 k<0 或 k>=sizeQ) 时 select(k) 也 会 抛 
出 异常 。 
3.1.2.6 便捷 方法 

在 基础 API 中 我 们 已 经 见 过 了 contains() 和 isEmpty() 方法 ， 为 了 用 例 的 清晰 我 们 又 在 API 
中 添加 了 一 些 元 余 的 方法 。 为 了 节约 版 面 ， 除 非特 别 声明 ， 我 们 约定 所 有 有 序 符号 表 API 的 实现 都 
含有 如 表 3.1.6 所 示 的 方法 。 


表 3.1.6 ”有 序 符号 表 中 宛 余 有 序 性 方法 的 默认 实现 





方 法 默认 的 实现 
void deleteMin() delete(minO)); 
void deleteMax(O) delete(maxO)); 
int size(Key 10，Key hi) if (hi.compareTo(1o) < 0) 
return 0; 


else if (contains(hi)) 
return rank(hi) - rank(1o) + 1; 


else 
return rank(hi) - rank(10); 
Tterable<Key> keys() return keys(min(), maxO)); 


3.1.2.7 ”再 谈 ) 键 的 等 价 性 

Java 的 一 条 最 佳 实践 就 是 维护 昕 有 Comparable 类 型 中 compareTo() 方法 和 equal1s() 方法 的 
一 致 性 。 也 就 是 说 ， 任 何 一 种 Comparable 类 型 的 两 个 值 a 和 b 都 要 保证 (a.compareTo(b)==0) 
和 a.equals(b) 的 返回 值 相同 。 为 了 避免 任何 潜在 的 二 义 性 ， 我 们 不 会 在 有 序 符号 表 的 实现 中 使 
用 equalsQ 方法 。 作 为 将 代 ， 我 们 只 会 使 用 compareTo() 方法 来 比较 两 个 键 ， 即 我 们 用 布尔 表达 
式 a.compareTo(b)==0 来 表示 “a 和 b 相等 吗 ? ”。 一 般 来 说 ， 这 样 的 比较 都 代表 着 在 符号 表 中 
的 一 次 成 功 查找 ( 找到 了 b ) 。 和 排序 算法 一 样 ，Java 为 许多 经 常 作为 键 的 数据 类 型 提供 了 标准 的 
compareTo() 方法 ， 为 你 自 定义 的 数据 类 型 实现 一 个 compareToO 方法 也 不 困难 (参见 2.5 节 ) 。 
3.1.2.8 ”成 本 模型 

无 论 我 们 是 使 用 equalsQ 方法 ( 对 于 符号 表 的 键 不 是 Comparable 对 象 而 言 ) 还 是 
compareTo() 方法 ( 对 于 符号 表 的 键 是 Comparable 对 象 而 言 ) ， 我 们 使 用 比较 一 词 来 表示 将 一 个 
符号 表 条 目 和 一 个 被 查找 的 键 进行 比较 操作 。 在 大 多 数 的 符号 表 实现 中 , 这 个 操作 都 出 现在 内 循环 。 
在 少数 的 例外 中 ,我们 则 会 统计 数组 的 访问 次 数 。 





查找 的 成 本 模型 。 在 学 习 符号 表 的 实现 时 ， 我 们 会 统计 比较 的 次 数 (等 价 性 测试 或 是 键 的 相 
互 比较 ) 。 在 内 循环 不 进行 比较 ( 极 少 ) 的 情况 下 ， 我 们 会 统计 数组 的 访问 次 数 。 


符号 表 实 现 的 重点 在 于 其 中 使 用 的 数据 结构 和 get() 、putQ 方法 。 在 下 文中 我 们 不 会 总 是 给 
出 其 他 方法 的 实现 ， 因 为 将 它们 作为 练习 能 够 更 好 地 检验 你 对 实现 背后 的 数据 结构 的 理解 程度 。 为 
了 区 别 不 同 的 实现 ， 我 们 在 特定 的 符号 表 实 现 的 类 名 前 加 上 了 描述 性 前 缀 。 在 用 例 代 码 中 ， 除 非 我 
们 想 使 用 一 个 特定 的 实现 ， 我 们 都 会 使 用 ST 表示 一 个 符号 表 实 现 。 在 本 章 和 其 他 章节 中 ， 经 过 学 
习 和 讨论 过 大 量 符号 表 的 使 用 和 实现 后 你 会 慢 慢 地 理解 这 些 AP1 的 设计 初 囊 。 同 时 我 们 也 会 在 答疑 
和 练习 中 讨论 算法 设计 时 的 更 多 选择 。 
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3.1.3 ”用 例 举例 

虽然 我 们 会 在 3.5 节 中 详细 说 明 符号 表 的 更 多 应 用 ， 在 学 习 它 的 实现 之 前 我 们 还 是 应 该 先 看 看 
如 何 使 用 它 。 相 应 地 我 们 这 里 考察 两 个 用 例 : 一 个 用 来 跟踪 算法 在 小 规模 输入 下 的 行为 测试 用 例 ， 
和 一 个 用 来 寻找 更 高 效 的 实现 的 性 能 测试 用 例 。 
3.1.3.1 ”行为 测试 用 例 

为 了 在 小 规模 的 输入 下 跟踪 算法 的 行为 ， 我 们 用 以 下 测试 用 例 测 试 我 们 对 符号 表 的 所 有 实现 。 
这 段 代码 会 从 标准 输入 接受 多 个 字符 串 ， 构 造 一 张 符号 表 来 将 i 和 第 i 个 字符 串 相 关联 ， 然 后 打印 
符号 表 。 在 本 书 中 我 们 假设 所 有 的 字符 串 都 只 有 一 个 字母 。 一 般 我 们 会 使 用 "Ss EA RCHEXA 
M P L E"。 按 照 我 们 的 约定 ， 用 例会 将 键 5 和 0， 键 R 和 3 关联 起 来 ， 等 等 。 但 E 的 值 是 12 (而 
非 1 或 者 6) ，A 的 值 为 8 (而 非 2 ) ， 因 为 我 们 的 关联 型 数组 意味 着 每 个 键 的 值 取决 于 最 近 一 次 
put 0 方法 的 调用 。 对 于 符号 表 的 简单 实现 无 序 )， 用 例 的 输出 中 键 的 顺序 是 不 确定 的 (这 和 具 
体 实现 有 关 ) ; 对 于 有 序 符号 表 ， 用 例 应 该 将 键 按 顺序 打印 出 来 。 这 是 一 种 索引 用 例 ， 它 是 我 们 将 
在 3.5 节 中 讨论 的 一 种 重要 的 符号 表 应 用 的 一 个 特殊 情况 。 

测试 用 例 的 实现 代码 如 下 所 示 。 测 试用 例 的 键 、 值 及 输出 如 图 3.1.1 所 示 。 








键 SEARCHEXAMPLE 
值 012345678910o1l12 
简 意 符 号 表 的 有 序 符号 
public static void main(String[] args) (一 种 可 能 的 ) 输出 表 的 输出 
{ 
ST<String, Integer> st; 上 所 人 
st = new ST<String, Integer>(); Ee 
M9 E 12 
for Cint i = 0; !StdIn.isEmpty(); i++) 4 H 5 
H 5 Ll 
String key = StdIn.readStringO); C 4 M9 
st.put(key, i); R 3 P 10 
A 8 R 3 
for (String s : st.keysO) E 12 5 0 
Stdout.println(s + " " + st.get(s)); so X 7 
} 
简单 的 符号 表 测 试用 例 图 3.1.1 测试 用 例 的 键 、 值 和 输出 370 











3.1.3.2 ”性 能 测试 用 例 

FrequencyCounter 用 例会 从 标准 输入 中 得 到 的 一 列 字符 串 并 记录 每 个 (长 度 至 少 达 到 指定 的 
阅 值 ) 字符 串 的 出 现 次 数 ， 然 后 遍历 所 有 键 并 找 出 出 现 频率 最 高 的 键 。 这 是 一 种 字典 ,我们 会 在 3.5 
节 中 更 加 详细 地 讨论 这 种 应 用 。 这 个 用 例 回答 了 一 个 简单 的 问题 : 哪个 ( 不 小 于 指定 长 度 的 ) 单词 
在 一 段 文字 中 出 现 的 频率 最 高 ? 在 本 章 中 ,我们 会 用 这 个 用 例 以 及 三 段 文字 来 进行 性 能 测试 : 狄 
更 斯 的 《双城记 》 中 的 前 五 行 (tinyTale.txt ) ， 《双城记 》 全 书 (tale-txt) ， 以 及 一 个 知名 的 叫做 
Leipzig Corpora Collection 的 数据 库 ( leipzig1M.txt ), 内 容 为 一 百 万 条 随机 从 网 络 上 抽取 的 句子 。 例 如， 
这 是 tinyTale.txt 的 内 容 : 
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% more tinyTale.txt 

it was the best of times it was the worst of times 

it was the age of wisdom it was the age of foolishness 

it was the epoch of belief it was the epoch of incredulity 
it was the season of light it was the season of darkness 
it was the spring of hope it was the winter of despair 


小 型 测试 输入 


这 段 文字 共有 60 个 单词 ， 去 掉 重复 的 单词 还 剩 20 个 ， 其 中 4 个 出 现 了 10 次 ( 频率 最 高 ) 。 
对 于 这 段 文字 ，FrequencyCounter 可 能 会 打印 出 让 、was 、the 或 者 of 中 的 某 一 个 单词 ( 具体 会 打 
印 出 哪 一 个 取决 于 符号 表 的 具体 实现 ) ， 以 及 它 出 现 的 频率 10。 表 3.1.7 总 结 了 大 型 测试 输入 流 的 





































性 质 。 
表 3.1.7 ”大 型 测试 输入 流 的 性 质 
TinyTale .bt tale bt 
单词 数 。 | 不 同 的 单词 数 | 。 单词 数 ”| 不 同 的 单词 数 
所 有 单词 135 635 21 191 455 
长 度 大 于 等 于 8 的 14350 4239 597 
单词 





4582 1610829 165 555 








长 度 大 于 等 于 10 的 
单词 
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FrequencyCounter 用 例 实现 过 程 如 下 所 示 。 
符号 表 的 用 例 





public class FrequencyCounter 
{ 
public static void main(String[] args) 
{ 
int minlen = Integer.parseInt(args[0]);  // 最 小 键 长 
ST<String, Integer> st = new ST<String, Integer>(); 
while (!StdIn.isEmpty()) 
{ // 构造 符号 表 并 统计 频 奉 
String word = StdIn.readStringO); 
if (word.lengthO < minlen) continue; // 忽略 较 短 的 单词 
if (!st.contains(word)) st.put(word, 1); 
else St.put(word, st.get(word) + 1); 
} 
// 找 出 出 现 频 奉 最 高 的 单词 


String max = 
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st.put(max, 0); 
for (String word : st.keysO) 
if (st.get(word) > st.get(max)) 
max = word; 


StdOut.printin(max + " " + st.get(max)); 


} 


这 个 符号 表 的 用 例 统计 了 标准 输入 中 各 % java FrequencyCounter 1 < tinyTale.txt 
个 单词 的 出 现 频率 ， 然 后 将 频率 最 高 的 单词 ity 
打印 出 来 。 命 令 行 参数 指定 了 表 中 的 键 的 最 。 % java FrequencyCounter 8 < tale.txt 
短 长 度 。 business 122 


% java FrequencyCounter 10 < leipziglM.txt 
government 24763 
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研究 符号 表 处 理 大 型 文本 的 性 能 要 考虑 两 个 方面 的 因素 : 首先 ， 每 个 单词 都 会 被 作为 键 进 行 搜 
索 ， 因 此 处 理性 能 和 输入 文本 的 单词 总 量 必然 有 关 ; 其 次 ， 输 入 的 每 个 单词 都 会 被 在 人 符号 表 ( 输 
入 中 不 重复 单词 的 总 数 也 就 是 所 有 键 都 被 插入 以 后 符号 表 的 大 小 ) ， 因 此 输入 流 中 不 同 的 单词 的 总 
数 也 是 相关 的 。 我 们 需要 这 两 个 量 来 估计 FrequencyCounter 的 运行 时 间 ( 作为 开始 ， 请 见 练习 
3.1.6 ) 。 我 们 会 在 学 习 了 一 些 算法 之 后 再 回头 说 明 一 些 细节 ， 但 你 应 该 对 类 似 这 样 的 符号 表 应 用 的 
需求 有 一 个 大 致 的 印象 。 例 如 ， 用 FrequencyCounter 分 析 leipzig1M.txt 中 长 度 不 小 于 8 的 单词 意 
味 着 ， 在 一 个 含有 数 以 千 计 的 键 值 对 的 符号 表 中 进行 上 百 万 次 的 查找 ， 而 互联 网 中 的 一 台 服务 器 可 
能 需要 在 含有 上 百 万 个 键 值 对 的 表 中 处 理 上 亿 的 交易 。 

这 个 用 例 和 所 有 这 些 例子 都 提出 了 一 个 简单 的 问题 : 我们 的 实现 能 够 在 一 张 用 多 次 get() 和 
put() 方法 构造 出 的 巨型 符号 表 中 进行 大 量 的 get() 操作 吗 ? 如 果 我 们 的 查找 操作 不 多 ， 那 么 任意 
实现 都 能 够 满足 需要 。 但 没有 一 个 高 效 的 符号 表 作为 基础 是 无 法 使 用 FrequencyCounter 这 样 的 程 
序 来 处 理 大 型 问题 的 。FrequencyCounter 是 一 种 极为 常见 的 应 用 的 代表 ， 它 的 这 些 特性 也 是 许多 
其 他 符号 表 应 用 的 共性 : 

口 混合 使 用 查找 和 插入 的 操作 ; 

口 大 量 的 不 同 键 ; 

口 查找 操作 比 插入 操作 多 得 多 ; 

口 虽然 不 可 预测 ， 但 查找 和 插入 操作 的 使 用 模式 并 非 随 机 。 

我 们 的 目标 就 是 实现 一 种 符号 表 来 满足 这 些 能 够 解决 典型 的 实际 问题 的 用 例 的 需要 。 

下 面 , 我 们 将 会 学 习 两 种 初级 的 符号 表 实 现 并 通过 FrequencyCounter 分 别 评估 它们 的 性 能 。 
在 之 后 的 几 节 中 ， 你 会 学 习 一 些 经 典 的 实现 ， 即 使 对 于 庞大 的 输入 和 符号 表 它 们 的 性 能 仍然 非常 3 
优秀 。 


3.1.4 ”无 序 链表 中 的 顺序 查找 


符号 表 中 使 用 的 数据 结构 的 一 个 简单 选择 是 链表 ， 每 个 结 点 存储 一 个 键 值 对 ， 如 算法 3.1 中 
的 代码 所 示 。get0) 的 实现 即 为 遍历 链表 ， 用 equalsQ 〇 方法 比较 需 被 查找 的 键 和 每 个 结 点 中 
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的 键 。 如 果 匹 配 成 功 我 们 就 返回 相应 的 值 ， 否 则 我 们 返回 nu11。putO) 的 实现 也 是 遍历 链表 ， 
用 equals() 方法 比较 需 被 查找 的 键 和 每 个 结 点 中 的 键 。 如 果 匹 配 成 功 我 们 就 用 第 二 个 参数 指定 
的 值 更 新 和 该 键 相 关联 的 值 ， 否 则 我 们 就 用 给 定 的 键 值 对 创建 一 个 新 的 结 点 并 将 其 插 人 到 链表 的 
开头 。 这 种 方法 也 被 称 为 顺序 查找 : 在 查找 中 我 们 一 个 一 个 地 顺序 遍历 符号 表 中 的 所 有 键 并 使 用 
equal1s() 方法 来 寻找 与 被 查找 的 键 匹配 的 键 。 

算法 3.1 ( SequentialSearchsT ) 用 链表 实现 了 符号 表 的 基本 API， 我 们 在 第 1 章 中 的 基础 数 
据 结 构 中 学 习 过 它 。 这 里 我 们 将 size() 、keys() 和 即时 型 的 delete0) 方法 留 做 练习 。 这 些 练习 
能 够 巩固 并 加 深 你 对 链表 和 符号 表 的 基本 API 的 理解 。 

这 种 基于 链表 的 实现 能 够 用 于 和 我 们 的 用 例 类 似 的 、 需 要 大 型 符号 表 的 应 用 吗 ? 我 们 已 经 说 
过 ， 分 析 符号 表 算法 比分 析 排 序 算法 更 困难 ， 因 为 不 同 的 用 例 所 进行 的 操作 序列 各 不 相同 。 对 于 
FrequencyCounter， 最 常见 的 情形 是 虽然 查找 和 插入 的 使 用 模式 是 不 可 预测 的 ， 但 它们 的 使 用 肯 
定 不 是 随机 的 。 因 此 我 们 主要 研究 最 坏 情况 下 的 性 能 。 为 了 方便 ,我 们 使 用 命中 表示 一 次 成 功 的 查找 ， 
未 命中 表示 一 次 失败 的 查找 。 使 用 基于 链表 的 符号 表 的 索引 用 例 的 轨迹 如 图 3.1.2 所 示 。 
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图 3.1.2 使 用 基于 链表 的 符号 表 的 索引 用 例 的 轨迹 ( 另 见 彩 插 ) 


算法 3.1 顺序 查找 (基于 无 序 链表 ) 





public class SequentialSearchST<Key, Value> 
{ 
private Node first; // 链表 首 结 点 
private class Node 
{ // 链表 结 点 的 定义 
Key key; 


Value val; 


3.1 符号 表 二 237 


Node next; 
public Node(Key key, Value val, Node next) 
{ 

this.key = key; 

this.val = val; 


this.next = next; 


# 
public Value get(Key key) 
{ // 查找 给 定 的 键 ， 返回 相关 联 的 什 
for (Node x = first; x != null; x = x.next) 
if (key.equals(x.key)) 
return x.val; // 命中 
return null; // 未 名 中 
} 
public void put(Key key, Value val) 
人 // 查找 给 定 的 键 ， 找 到 则 更 新 其 值 ， 否 则 在 表 中 新 建 结 点 
for (Node x = first; x != nul1; x = x.next) 
if (key.equals(x.key)) 
{ x.val = val; return; } // 命中 ， 更 新 
first = new Node(key，val，first); // 未 命中 ， 新 建站 点 


} 

符号 表 的 实现 使 用 了 一 个 私有 内 部 Node 类 来 在 链表 中 保存 键 和 值 。get 0 的 实现 会 顺序 地 搜索 链 
表 查 找 给 定 的 键 ( 找到 则 返回 相关 联 的 值 ) 。put 0 的 实现 也 会 顺序 地 搜索 链表 查找 给 定 的 键 ， 如 果 找 
到 则 更 新 相关 联 的 值 ， 否 则 它 会 用 给 定 的 键 值 对 创建 一 个 新 的 结 点 并 将 其 插入 到 链表 的 开头 。size() 、 
keys() 和 即时 型 的 delete() 方法 的 实现 留 做 练习 。 








375) 








命题 A。 在 含有 N 对 键 值 的 基于 ( 无 序 ) 链表 的 符号 表 中 ， 未 命中 的 查找 和 插入 操作 都 需要 入 
次 比较 。 命 中 的 查找 在 最 坏 情况 下 需要 N 次 比较 。 特 别 地 ， 向 一 个 空 表 中 插入 N 个 不 同 的 键 需 
要 ~- NV/2 次 比较 。 


证 明 。 在 表 中 查找 一 个 不 存在 的 键 时 ， 我 们 会 将 表 中 的 每 个 键 和 给 定 的 键 比较 。 因 为 不 允许 出 
现 重复 的 键 ， 每 次 插入 操作 之 前 我 们 都 需要 这 样 查找 一 遍 。 


推论 。 向 一 个 空 表 中 插入 N 个 不 同 的 键 需要 ~ N52 次 比较 。 
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查找 一 个 已 经 存在 的 键 并 不 需要 线性 级 别 的 时 间 。 一 种 度量 方法 是 查找 表 中 的 每 个 键 ， 并 将 总 
时 间 除 以 N。 在 查找 表 中 的 每 个 键 的 可 能 性 都 相同 的 情况 下 时 ， 这 个 结果 就 是 一 次 查找 平均 所 需 的 
比较 数 。 我 们 将 它 称 为 随机 命中 。 尽 管 符号 表 用 例 的 查找 模式 不 太 可 能 是 随机 的 ， 这 个 模型 也 总 能 
适应 得 很 好 。 我 们 很 容易 就 可 以 得 到 随机 命中 所 需 的 平均 比较 次 数 为 ~W2: 算法 3.1 中 的 get() 方法 
查找 第 一 个 键 需要 1 次 比较 ， 查 找 第 二 个 键 需要 2 次 比较 ， 如 此 这 般 ， 平 均 比 较 次 数 为 (1+2+…+N)/ 
N=(N+1)/2~N/2。 

这 些 分 析 完 全 证 明了 基于 链表 的 实现 以 及 顺序 查找 是 非常 低 效 的 ， 无 法 满足 Frequency- 
Counter 处 理 庞大 输入 问题 的 需求 。 比 较 的 总 次 数 和 查找 次 数 与 插入 次 数 的 乘积 成 正比 。 对 于 《 双 
城 记 》 这 个 数字 大 于 10"， 而 对 于 Leipzig Corpora 数据 库 这 个 数字 大 于 10"。 

按照 惯例 ， 为 了 验证 分 析 结果 我 们 需要 进行 一 些 实验 。 这 里 我 们 用 FrequencyCounter 以 及 命 
令 行 参数 8 来 分 析 tale.txt。 这 将 需要 14 350 次 put() (已 经 说 过 ,输入 中 的 每 个 单词 都 需要 一 次 
put() 操作 来 更 新 它 的 出 现 频率 ，contains( 方法 的 调用 是 可 以 避免 的 , 这 里 忽略 了 它 的 成 本 ) 。 
符号 表 将 包含 5737 个 键 ， 也 就 是 说 大 约 三 分 之 一 的 操作 都 将 表 增 大 了 ， 其 余 操作 为 查找 。 为 了 将 
性 能 可 视 化 我 们 使 用 了 VisualAccumulator ( 请 见 表 1.2.14 ) 将 每 次 put() 操作 转换 为 两 个 点 : 对 
于 第 i 次 put 0 操作 , 我 们 会 在 横 坐 标 为 i, 纵 坐 标 为 该 次 操作 所 进行 的 比较 次 数 的 位 置 画 一 个 灰 点 ， 
以 及 横 坐 标 为 i, 纵 坐 标 为 前 i 次 put 0) 操作 累计 所 需 的 平均 比较 次 数 的 位 置 画 一 个 黑 点 ， 如 图 3.1.3 
所 示 。 和 所 有 科学 实验 数据 一 样 ， 这 其 中 包含 了 很 多 信息 供 我 们 研究 ( 这 张 图 含有 14 350 个 灰 点 和 
14 350 个 黑 点 ) 。 这 里 ， 我 们 的 主要 兴趣 在 于 这 张 表 证 实 了 我 们 关于 put() 平均 需要 访问 半 条 链表 
的 猜想。 虽然 实际 的 数据 比 一 半 稍 少 ， 但 对 这 个 事实 ( 以 及 图 表 曲 线 的 形状 ) 最 好 的 解释 应 该 是 应 
用 的 特性 ， 而 非 算法 ( 请 见 练习 3.1.36 ) 。 

尽管 某 个 具体 用 例 的 性 能 特点 可 能 是 复杂 的 ,但 只 要 使 用 我 们 准备 的 文本 或 者 随机 有 序 输 
入 以 及 我 们 在 第 1 章 中 介绍 的 DoublingTest 程序 ， 我 们 还 是 能 够 轻松 估计 出 FrequencyCounter 
的 性 能 并 测试 验证 的 。 我 们 将 这 些 测试 留 给 练习 和 接 下 来 将 要 学 习 的 更 加 复杂 的 实现 。 如 果 
你 并 不 觉得 我 们 需要 更 快 的 实现 ， 请 一 定 完成 这 些 练习 ! ( 或 者 用 FrequencyCounter 调用 
SequentialSearchST 来 处 理 leipzig1M.txt ! ) 
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图 3.1.3 使 用 SequentialSearchST， 运 行 java FrequencyCounter 8 < tale.txt 的 成 本 


3.1.5 ”有 序数 组 中 的 二 分 查找 
下 面 我 们 要 学 习 有 序 符号 表 API 的 完整 实现 。 它 使 用 的 数据 结构 是 一 对 平行 的 数组 ， 一 个 存储 
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键 一 个 存储 值 。 算 法 3.2 ( BinarySearchST ) 可 以 保证 数组 中 Comparable 类 型 的 键 有 序 ， 然 后 使 
用 数组 的 索引 来 高 效 地 实现 get() 和 其 他 操作 。 

这 份 实现 的 核心 是 rank() 方法 ， 它 返回 表 中 小 于 给 定 键 的 键 的 数量 。 对 于 get 0 方法 ， 只 要 
给 定 的 键 存在 于 表 中 ，rank( 方法 就 能 够 精确 地 告诉 我 们 在 哪里 能 够 找到 它 ( 如 果 找 不 到 ， 那 它 
肯定 就 不 在 表 中 了 ) 。 

对 于 putQ 方法 ， 只 要 给 定 的 键 存在 于 表 中 ，rank0) 方法 就 能 够 精确 地 告诉 我 们 到 哪里 去 更 
新 它 的 值 ， 以 及 当 键 不 在 表 中 时 将 键 存储 到 表 的 何 处 。 我 们 将 所 有 更 大 的 键 向 后 移动 一 格 来 腾 出 位 
置 (从 后 向 前 移动 ) 并 将 给 定 的 键 值 对 分 别 插入 到 各 自 数组 中 的 合适 位 置 。 结 合 我 们 测试 用 例 的 轨 
迹 来 研究 BinarySearchST 也 是 学 习 这 种 数据 结构 的 好 方法 。 

这 段 代码 为 键 和 值 使 用 了 两 个 数组 ( 另 一 种 方式 请 见 练习 3.1.12 ) 。 和 我 们 在 第 1 章 中 对 泛 
型 的 栈 和 队列 的 实现 一 样 ， 这 段 代码 也 需要 创建 一 个 Key 类 型 的 Comparable 对 象 的 数组 和 一 个 
Value 类 型 的 Object 对 象 的 数组 ， 并 在 构造 函数 中 将 它们 转化 回 Key[] 和 Valuer] 。 和 以 前 一 样 ， 
我 们 可 以 动态 调整 数组 ， 使 得 用 例 无 需 担心 数组 大 小 ( 请 注意 ， 你 会 发 现 这 种 方法 对 于 大 数组 实在 
是 太 慢 了 ) 。 

使 用 基于 有 序数 组 的 符号 表 实 现 的 索引 用 例 的 轨迹 如 表 3.1.8 所 示 。 


表 3.1.8 使 用 基于 有 序数 组 的 符号 表 实现 的 索引 用 例 的 轨迹 
一 一- 
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算法 3.2 二 分 查找 (基于 有 序数 组 ) 





public class BinarySearchST<Key extends Comparable<key>, Value> 
{ 
private Key[] keys; 
private Value[] vals; 
private int Ni 
public BinarySearchSTCint capacity) 
{ 。 // 调整 孝 组 大 小 的 标准 代码 请 见 算法 1.1 
keys = (Key[]) new Comparable[capacity]; 
vals = (Value[]) new Object[capacity]; 
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public int sizeO 

{ return N; } 

public Value get(Key key) 

{ 
if (isEmptyO)) return null; 
int i = rankCkey); 


if (i < N & keys[i].compareTo(key) == 0) return vals[i]; 


else 
} 
public int rank(Key key) 
// 请 见 算法 3.2 ( 续 1 ) 


public void put(Key key, Value val) 


人 { // 查找 键 ， 找 到 则 更 新 值 ， 否 则 创建 新 的 元 素 


int i = rank(key); 


return null; 


if (i < N && keys[i].compareTo(key) == 0) 


{ vals[i] = val; return; } 
for (int j = N; j > i; j--) 





{ keys[j] = keys[j-1]; vals[j] = vals[j-1]; } 


keys[i] = key; vals[i] = val; 
N++; 


} 


public void delete(Key key) 
// 该 方法 的 实现 请 见 练习 3.1.16 


} 


这 段 符号 表 的 实现 用 两 个 数组 来 保存 键 和 值 。 和 1.3 节 中 基于 数组 的 栈 一 样 ，put() 方法 会 在 插入 
新 元 素 前 将 所 有 较 大 的 键 向 后 移动 一 格 。 这 里 省 略 了 调整 数组 大 小 部 分 的 代码 。 





3.1.5.1 二 分 查找 


我 们 使 用 有 序数 组 存储 键 的 原因 是 ， 第 1 章 中 作为 例子 出 现 的 经 典 二 分 查找 法 能 够 根据 数组 的 


索引 大 大 减少 每 次 查找 所 需 的 比较 次 数 。 我 
们 会 使 用 有 序 索引 数组 来 标识 被 查找 的 键 可 
能 存在 的 子 数 组 的 大 小 范围 。 在 查找 时 ， 我 
们 先 将 被 查找 的 键 和 子 数组 的 中 间 键 比较 。 
如 果 被 查找 的 键 小 于 中 间 键 ， 我 们 就 在 左 子 
数组 中 继续 查找 ， 如 果 大 于 我 们 就 在 右 子 数 
组 中 继续 查找 ， 否 则 中 间 键 就 是 我 们 要 找 的 
键 。 算法 3.2 ( 续 1) 中 实现 rankQ 〇 方法 的 
代码 使 用 了 刚才 讨论 的 二 分 查找 法 。 这 个 实 
现 值得 我 们 仔细 研究 。 作 为 开始 ， 我 们 来 看 
看 这 段 等 价 的 递归 代码 。 


public int rank(Key key, int lo, int hi) 


2 


if (hi < 10) return 1o; 
int mid = lo + (hi - 10) / 2; 
int cmp = key.compareTo(keys[mid]); 
if (cmp < 0) 

return rank(key, 10, mid-1); 
else if (cmp > 0) 

return rank(key, mid+1, hi); 
else return mid; 


递归 的 二 分 查找 


调用 这 里 的 rankCkey，0，N-1) 所 进行 的 比较 和 调用 算法 3.2 ( 续 1 ) 的 实现 所 进行 的 比较 完 
全 相同 。 但 如 1.1 节 中 讨论 的 , 这 个 版 本 更 好 地 暴露 了 算法 的 结构 。 递归 的 rank(C) 保留 了 以 下 性 质 : 
口 如 果 表 中 存在 该 键 ，rank() 应 该 返回 该 键 的 位 置 ， 也 就 是 表 中 小 于 它 的 键 的 数量 ; 
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口 如 果 表 中 不 存在 该 键 ，rank() 还 是 应 该 返回 表 中 小 于 它 的 键 的 数量 。 

好 好 想 想 算法 3.2 ( 续 1 ) 中 非 递归 的 rank() 为 什么 能 够 做 到 这 些 ( 你 可 以 证 明 两 个 版 本 的 等 
价 性 ， 或 者 直接 证 明 非 递归 版 本 中 的 循环 在 结束 时 1o 的 值 正好 等 于 表 中 小 于 被 查找 的 键 的 键 的 数 
量 ) ， 所 有 程序 员 都 能 从 这 些 思考 中 有 所 收获 。 ( 提示 : 1o 的 初始 值 为 0， 且 永远 不 会 变 小 ) 


算法 3.2 ( 续 1) 基于 有 序数 组 的 二 分 查找 〈 和 迭代 ) 





public int rank(Key key) 
{ 


int lo = 0, hi = N-1; 
while (lo <= hi) 
{ 


int mid = lo + (hi - 10) / 2; 
int cmp = key.compareTo(keys[mid]); 
if Cemp < 0) hi = mid - 1; 
else if (cm > 0) lo = mid + 1; 
else return mid; 

3 

return 1o; 


} 


该 方法 实现 了 正文 所 述 的 经 典 算法 来 计算 小 于 给 定 键 的 键 的 数量 。 它 首先 将 key 和 中 间 键 比较 ， 如 
果 相 等 则 返回 其 索引 ; 如 果 小 于 中 间 键 则 在 左 半 部 分 查找 ; 大 于 则 在 右 半 部 分 查找 。 


-一 kaysO ~- 

对 p 的 命中 查找 0 1 2 3 4 5 6 7 8 9 

1o hi mid 
094 ACE HL $s 黑色 的 元 素 是 

5 xX 一 a[1o. hi] 中 的 刍 


和 隧 

7 M P 

NP 四 色 加 四 的 元 素 是 
6 P 中 间 键 a[mid] 

命中 查找 到 中 间 键 和 P 相 等 时 循环 退出 
四 

| 

M 

NM 


S 用 
Sx 


Tu 


4 

7 

5 

6 
1o>hi 时 循环 退出 ， 返 回 7 
在 有 序数 组 中 使 用 二 分 法 查找 排名 的 轨迹 





算法 3.2 ( 续 2) 基于 二 分 查找 的 有 序 符号 表 的 其 他 操作 


public Key minO 
{ return keys[0]; } 





public Key max() 
{ return keys[N-1]; } 


public Key select(int k) 
{ return keys[k]; } 
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public Key ceiling(Key key) 
{ 
int i = rank(key); 
return keys[i]; 
} 


public Key floor(Key key) 
// 请 见 练习 3.1.17 


public Key delete(Key key) 
// 请 见 练习 3.1.16 


public Iterable<key> keys(Key lo, Key hi) 
归 
Queue<Key> q = new Queue<Key>(); 
for Cint i = rank(1o); i < rankChi); i++) 
q.enqueue(keys[i]); 
if (contains(hi)) 
q-.enqueue(keys[rankChi)]); 
return q; 
} 


这 些 方法 ， 以 及 练习 3.1.16 和 练习 3.1.17， 组 成 了 我 们 对 使 用 二 分 查找 的 有 序 符号 表 的 完整 实现 。 
min()、max() 和 select() 方法 都 很 简单 ， 只 需 按照 给 定 的 位 置 从 数组 中 返回 相应 的 值 即 可 。rankO 
方法 实现 了 二 分 查找 ， 是 其 他 方法 的 基石 。floorO 和 delete() 方法 虽然 也 不 难 ， 但 稍微 复杂 一 些 ， 在 
此 留 做 练习 。 





3.1.5.2 ”其 他 操作 

因为 键 被 保存 在 有 序数 组 中 ,算法 2.2 ( 续 2 ) 中 和 顺序 有 关 的 大 多 数 操作 都 一 目 了 然 。 例 如 ， 
调用 select(k) 就 相当 于 返回 keys[k] 。 我 们 将 delete《) 和 floor() 留 做 练习 。 你 应 该 研究 一 
下 ceiling() 和 带 两 个 参数 的 keys() 方法 的 实现 ， 并 完成 练习 来 巩固 和 加 深 你 对 有 序 符号 表 的 
API 及 其 实现 的 理解 。 


3.1.6 ”对 二 分 查找 的 分 析 
rank() 的 递归 实现 还 能 够 让 我 们 立即 得 到 一 个 结论 ; 二 分 查找 很 快 ， 因 为 递归 关系 可 以 说 明 
算法 所 需 比较 次 数 的 上 界 。 


命题 B。 在 NN 个 键 的 有 序数 组 中 进行 二 分 查找 最 多 需要 (lgN+1 ) 次 比较 ( 无 论 是 否 成 功 ) 。 


证 明 。 这 里 的 分 析 和 对 归并 排序 的 分 析 ( 第 2 章 的 命题 F) 类 似 (但 相对 简单 ) 。 令 C(N) 为 
在 大 小 为 NN 的 符号 表 中 查找 一 个 键 所 震 进行 的 比较 次 数 。 显 然 我 们 有 C(0)=0，C(1)=1， 且 对 于 
AN>0 我 们 可 以 写 出 一 个 和 递归 方法 直接 对 应 的 归纳 关系 式 : 

CW < CN2D+1 
无 论 查 找 会 在 中 间 元 素 的 左 侧 还 是 右 侧 继续 ， 子 数组 的 大 小 都 不 会 超过 LN/2]， 我 们 需要 一 次 
比较 来 检查 中 间 元 素 和 被 查找 的 键 是 否 相等 ， 并 决定 继续 查找 左 个 还 是 右 侧 的 子 数组 。 当 入 为 
2 的 备 减 1 时 (N=2"-1) ， 这 种 递 推 很 容易 。 首 先 ， 因 为 N12]=2"'-1， 所 以 我 们 有 : 


CC-D 三 CC-D+l 
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用 这 个 公式 代 换 不 等 式 右边 的 第 一 项 可 得 : 
C2°-1) < CC 一 -1)+1+1 
将 上 面 这 一 步 重 复 m-2 次 可 得 : 
CC-D 和 CCDHm 
最 后 的 结果 即 : 
C(N=C(C0 < nt1<lgN+1 


对 于 一 般 的 N， 确 切 的 结论 更 加 复杂 ， 但 不 难 通 过 以 上 论证 推广 得 到 请 见 练习 3.1.20) 。 二 
分 查找 所 需 时 间 必 然 在 对 数 范围 之 内 。 


刚才 给 出 的 实现 中 ，cei1ing() 只 是 调用 了 一 次 rank()， 而 接受 两 个 参数 的 默认 size() 方 
法 调用 了 两 次 rank()， 因 此 这 份 证 明 也 保证 了 这 些 
操作 ( 包括 floor() ) 所 需 的 时 间 最 多 是 对 数 级 别 的 ， 
(min() 、max() 和 select() 操作 所 需 的 时 间 都 是 常 表 3.1.9 BinarySearchST 的 操作 的 成 本 
运行 所 需 时 间 的 
数 级 别 的 ) 。 方 法 “增长 效 量 级 
尽管 能 够 保证 查找 所 需 的 时 间 是 对 数 级 别 














的 ，BinarysearchsT 仍 然 无 法 支持 我 们 用 类 似 PetO 
FrequencyCounter 的 程序 来 处 理 大 型 问题 ， 因 为 putO tO ly 
方法 还 是 太 慢 了 。 二 分 查找 减少 了 比较 的 次 数 但 无 法 减 。 。 deleteO ~ 
少 运行 所 需 时 间 ， 因 为 它 无 法 改变 以 下 事实 : 在 键 是 随 。 containsO logN 
机 排列 的 情况 下 ， 构 造 一 个 基于 有 序数 组 的 符号 sizeO 1 
要 访问 数组 的 次 数 是 数组 长 度 的 平方 级 别 (在 实际 情况 wing 
下 键 的 排列 虽然 不 是 随机 的 ， 但 仍然 很 好 地 符合 这 个 模 
型 ) 。BinarySearchST 的 操作 的 成 本 如 表 3.1.9 所 示 。 -0 : 
floorO logN 
命题 日 ( 续 ) 。 向 大 小 为 N 的 有 序数 组 中 插入 -个 ceilingO logN 
新 的 元 来 在 最 坏 情 况 下 需要 访问 ~ 2N 次 数组 ， 因 此 rankO iogN 
向 一 个 空 符号 表 中 插入 个 元 素 在 最 坏 情况 下 需要 selectO 1 
访问 ~ WV 次数 组 。 deleteMin() N 
证 明 。 同 命题 A。 deleteMax() 1 





对 于 含有 10 个 不 同 键 的 《双城记 》， 构 建 符号 表 需 要 访问 数组 约 10' 次 ;而 对 于 含有 10 个 
不 同 键 的 Leipzig 项 目 则 需要 访问 数组 10" 次 。 虽 然 现代 计算 机 可 勉强 实现 ， 但 这 样 的 成 本 还 是 过 
高 了 。 

回头 看 看 FrequencyCounter 在 参数 为 8 时 put() 操作 的 性 能 ， 我 们 可 以 看 到 平均 情况 下 的 
比较 次 数 ( 包括 访问 数组 的 次 数 ) 从 SequentialSearchST 的 2246 次 降低 到 了 BinarySearchST 
的 484 次 (如 图 3.1.4 所 示 ) 。 这 比 我 们 在 分 析 中 预测 的 还 要 更 好 ， 额 外 的 部 分 可 能 能 够 再 次 通过 
应 用 的 性 质 得 到 解释 ( 请 见 练习 3.1.36 ) 。 这 次 改进 令 人 印象 深刻 , 但 你 会 看 到 , 我 们 还 能 做 得 更 好 。 
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图 3.1.4 使 用 BinarySearchST， 运 行 java FrequencyCounter 8 < tale.txt 的 成 本 
3.1.7 预览 


- 般 情况 下 二 分 查找 都 比 顺序 查找 快 得 多 ， 它 也 是 众多 实际 应 用 程序 的 最 佳 选择 。 对 于 一 
个 静态 表 ( 不 允许 插入 ) 来 说 ， 将 其 在 初始 化 时 就 排序 是 值得 的 ， 如 第 1 章 中 的 二 分 查找 所 示 
(请 见 表 1.2.15 ) 。 即 使 查找 前 所 有 的 键 值 对 已 知 ( 这 在 应 用 程序 中 是 一 种 常见 的 情况 ) ， 为 
BinarySearchST 添 加 一 个 能 够 初始 化 并 将 符号 表 排序 的 构造 函数 也 是 有 意义 的 ( 请 见 练习 3.1.12 ) 。 
当然 ， 二 分 查找 也 不 适合 很 多 应 用 。 例 如 ， 它 无 法 处 理 Leipzig Corpora 数据 库 ， 因 为 查找 和 插入 操 
作 是 混合 进行 的 ， 而 且 符号 表 也 太 大 了 。 如 我 们 所 强调 的 那样 ， 现 代 应 用 需要 同时 能 够 支持 高 效 的 
查找 和 插入 两 种 操作 的 符号 表 实 现 。 也 就 是 说 ， 我 们 需要 在 构造 庞大 的 符号 表 的 同时 能 够 任意 插入 
(也 许 还 有 删除 ) 键 值 对 ， 同 时 也 要 能 够 完成 查找 操作 。 

表 3.1.10 给 出 了 本 节 中 介绍 的 符号 表 的 初级 实现 的 性 能 特点 。 表 中 给 出 的 是 总 成 本 中 的 最 高 级 
项 (对 于 二 分 查找 是 数组 的 访问 次 数 ， 对 于 其 他 则 是 比较 次 数 ) ， 即 运行 时 间 的 增长 数量 级 。 


表 3.1.10 简单 的 符号 表 实现 的 成 本 总 结 








最 坏 情况 下 的 成 本 平均 情况 下 的 成 本 
算法 数据 结构 ) (N 次 插入 后 ) (次 随机 插入 后 ) 是 否 高 效 地 支持 有 序 
查 找 | 插 入 | 查找 [| 括 入 | 人 
顺序 查找 ( 无 序 链表 ) N N N2 N 再 
-分 查找 (有 序数 组 ) | I8N aN leN N 是 








核心 的 问题 在 于 我 们 能 否 找到 能 够 同时 保证 查找 和 插入 操作 都 是 对 数 级 别 的 算法 和 数据 结构 。 
答案 是 令 人 兴奋 的 “可 以 ”! 这 个 答案 也 正 是 本 章 的 重点 所 在 。 和 第 2 章 讨论 的 高 效 排序 算法 一 样 ， 
能 够 高 效 地 查找 和 插入 的 符号 表 是 算法 领域 对 世界 最 重要 的 贡献 之 一 ， 也 是 我 们 今天 能 够 享受 的 丰 
富 计算 性 基础 设施 的 开发 基础 。 

我 们 如 何 能 够 实现 这 个 目标 呢 ? 要 支持 高 效 的 插入 操作 ， 我 们 似乎 需要 一 种 链 式 结构 。 但 单 链 
接 的 链表 是 无 法 使 用 二 分 查找 法 的 ， 因 为 二 分 查找 的 高 效 来 自 于 能 够 快速 通过 索引 取得 任何 子 数 组 
的 中 间 元 素 (但 得 到 一 条 链表 的 中 间 元 素 的 唯一 方法 只 能 是 沿 链表 遍历 ) 。 为 了 将 二 分 查找 的 效率 
和 链表 的 灵活 性 结合 起 来 ， 我 们 需要 更 加 复杂 的 数据 结构 。 能 够 同时 拥有 两 者 的 就 是 二 又 查找 树 ， 
它 也 是 我 们 下 面 两 节 的 主题 。 我 们 会 将 散 列 表 留 到 3.4 节 中 讨论 。 
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在 本 章 中 我 们 会 学 习 6 种 符号 表 的 实现 ， 这 里 我 们 先 给 出 一 个 简单 的 预览 。 表 3.1.11 包含 一 系 


列 数据 结构 以 及 它们 适用 和 不 适用 于 某 个 应 用 场景 的 原因 ， 按 照 我 们 学 习 它 们 的 先后 顺序 排列 。 


表 3.1.11 符号 表 的 各 种 实现 的 优 缺点 











使 用 的 数据 结构 实 现 优点 缺点 
链表 (顺和 查找) SequentialSearchST ”适用 于 小 型 问题 对 于 大 型 符号 表 很 慢 
- 最 优 的 查找 效率 和 空间 需 
有 代数 组 《一 分 BinarySearchsT 求 ， 能 够 进行 有 序 性 相关 ”插入 操作 很 慢 

的 操作 
ER 实现 简单 ， 能 够 进行 有 序 ”没有 性 能 上 界 的 保证 
二 又 查找 桂 性 相关 的 操作 链接 需要 额外 的 空间 





最 优 的 查找 和 插入 效率 ,能 


平衡 二 又 查找 树 。 RedB1ackBST 够 进行 有 序 性 相关 的 操作 链接 需要 额外 的 空间 





散 列表 


SeparateChaintashsT 能够 快速 地 查找 和 插入 常 。 需要 | 算 生 种 类 型 的 数据 的 了 列 无 


LinearProbingHashST 。 见 类 型 的 数据 结 点 需要 疾 外 的 空间 


在 学 习 中 我 们 会 仔细 了 解 每 种 算法 和 实现 的 各 种 性 质 ， 这 里 的 简单 特性 是 为 了 帮助 你 在 学 习 它 


们 的 同时 能 够 从 全 局 的 高 度 来 理解 它们 。 一 句 话 ， 我 们 有 若干 种 高 效 的 符号 表 实 现 ， 它 们 能 够 并 且 
已 经 被 应 用 于 无 数 程序 之 中 了 。 


围 答 经 


问 


为 什么 符号 表 不 像 2.4 节 中 优先 队列 那样 使 用 一 个 Comparable 的 Ttem 类 型 ， 而 是 对 于 键 和 值 使 用 
不 同 的 数据 类 型 ? 

这 的 确 是 一 种 可 行 的 办 法 。 这 两 者 代表 了 将 键 和 值 关 联 起 来 的 两 种 不 同方 式 一 一 我 们 可 以 构造 一 
种 将 键 包 含 在 其 中 的 数据 结构 来 隐 式 关联 键 值 或 是 显 式 地 将 键 和 值 区 分 开 来 。 对 于 符号 表 ， 我 们 
选择 突出 关联 数组 的 抽象 形式 。 同 时 也 请 注意 ， 符 号 表 的 用 例 在 查找 时 只 会 指定 一 个 键 ， 而 非 一 
个 键 值 对 。 

为 什么 要 用 equa1s() ? 为 什么 不 一 直 使 用 compareToO) ? 

并 不 是 所 有 的 数据 产生 的 键 值 对 都 能 够 进行 比较 ， 尽 管 有 时 候 将 它们 保存 在 符号 表 可 以 。 举 一 个 比 
较 极 端的 例子 ,你 可 能 会 用 一 幅 照片 或 者 一 首 歌 作为 键 , 但 没 法 比较 它们 , 只 能 知道 它们 是 否 相等 (也 
要 花 点 儿 工 夫 ) 。 

为 什么 键 的 值 不 能 为 空 (nu11) ? 

因为 我 们 会 用 Key 调用 compareTo0) 或 者 equalsQ 方法 ， 因 此 我 们 假设 它 是 一 个 0bject。 但 是 
当 a 为 nu11 时 a.compareTo(b) 会 抛 出 一 个 空 指针 异常 。 如 果 能 消除 这 种 可 能 性 ， 用 例 的 代码 能 够 
更 简单 。 

为 什么 不 和 排序 一 样 使 用 一 个 类 似 于 1ess() 的 方法 ? 

在 符号 表 中 等 价 性 比较 特殊 ， 因 此 我 们 还 需要 一 个 方法 来 测试 等 价 性 。 为 了 避免 增加 本 质 上 功能 相 
同 的 方法 ， 我 们 使 用 了 Java 内 置 的 equa1s () 和 compareToC) 。 

在 BinarySearchST 中 的 类 型 转换 之 前 ， 为 什么 不 将 key[] 和 val[] 一 样 声明 为 Object[] ( 而 是 
Comparable[] ) ? 
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答 


问 


问 


问 得 好 。 如 果 你 这 么 做 ， 你 会 得 到 一 个 ClassCastException， 因 为 键 只 能 是 Comparable 的 (以 
保证 key[] 中 的 元 素 都 有 compareToQ 方法 ) 。 因 此 将 key[] 声明 为 Comparable[] 是 必需 的 。 深 
人 程序 语言 的 设计 细节 来 解释 这 里 的 原因 可 能 会 有 些 跑题 。 在 本 书 所 有 使 用 泛 型 的 Comparable 对 
象 和 数组 的 代码 中 我 们 都 会 照 此 办 理 。 

如 果 我 们 需要 将 多 个 值 关 联 到 同一 个 键 怎么 办 ? 例如 ， 如 果 我 们 在 应 用 程序 中 用 Date 日 期 作为 键 ， 
那 不 会 需要 处 理 重复 的 键 吗 ? 

可 能 会 ， 也 可 能 不 会 。 例 如 ， 两 列 火车 不 可 能 同时 在 同一 条 轨道 上 到 达 同 一 个 车 站 (但 它们 可 以 在 
不 同 的 铁轨 上 同时 到 站 ) 。 处 理 这 种 情形 有 两 个 办 法 : 用 其 他 信息 来 消除 重复 或 者 使 用 Queue 类 型 
来 存储 所 有 有 相同 键 的 值 。 我 们 会 在 3.5 节 中 详细 讨论 符号 表 的 应 用 。 

3.1.7 节 中 将 表 预 排序 的 想法 看 起 来 是 个 好 主意 ， 为 什么 把 它 留 作 一 道 练习 ( 请 见 练习 3.1.12 ) ? 
的 确 , 在 某 些 应 用 中 它 确实 是 最 佳 的 选择 。 但 在 一 个 希望 实现 快速 查找 的 数据 结构 中 为 了 “图 方便 
而 加 入 一 个 低 效 的 插 人 方法 会 变 成 一 个 性 能 陷阱 ， 因 为 一 个 普通 用 例 可 能 会 在 一 张 很 大 的 表 中 混 
合 使 用 查找 和 插 和 人 操作 却 发 现 运行 所 需 的 时 间 是 平方 级 别 的 。 这 种 陷阱 太 常见 了 ， 因 此 当 你 使 用 
他 人 开发 的 软件 ， 尤 其 是 接口 繁多 时 ， 你 应 该 加 倍 小 心 。 当 对 象 含有 大 量 “ 便 捷 ” 方 法 而 导致 到 
处 都 是 性 能 陷阱 ， 而 用 例 却 可 能 认为 所 有 的 方法 都 同样 高 效 时 ， 这 个 问题 就 非常 严重 了 。Java 的 
ArrayList 类 就 是 这 样 的 一 个 例子 ( 请 见 练习 3.5.27) 。 


图 练 习 


3.1.1 编写 一 段 程序 ， 创 建 一 张 符号 表 并 建立 字母 成 绩 和 数值 分 数 的 对 应 关系 ， 如 下 表 所 示 。 从 标准 输 


人 读 取 一 系列 字母 成 绩 ， 计 算 并 打印 GPA( 字母 成 绩 对 应 的 分 数 的 平均 值 ) 。 
|c|c|c| |s 
2607| 233| 200| 167 | 100| oo 


At| A| A-| Bt| Bs 
433 | 400 | 367 | 333 | 300 








3.1.2 开发 一 个 符号 表 的 实现 ArrayST， 使 用 (无 序 ) 数组 来 实现 我 们 的 基本 API。 
3.1.3 开发 一 个 符号 表 的 实现 0rderedSequentialSearchST， 使 用 有 序 链表 来 实现 我 们 的 有 序 符号 表 


API。 


3.1.4 开发 抽象 数据 类 型 Time 和 Event 来 处 理 表 3.1.5 中 的 例子 中 的 数据 。 
3.1.5 实现 SequentialSearchST 中 的 sizeO) 、delete() 和 keys() 方法 。 
3.1.6 用 输入 中 的 单词 总 数 不 和 不 同 单词 总 数 忆 的 函数 给 出 FrequencyCounter 调用 的 putC) 和 


get (0) 方法 的 次 数 。 


3.1.7 对 于 NI0、10、10、10 、10 和 10'， 在 N 个 小 于 1000 的 随机 非 负 整数 中 Frequency Counter 


平均 能 够 找到 多 少 个 不 同 的 键 ? 


3.1.8 ”在 《双城记 》 中 ,使 用 频率 最 高 的 长 度 大 于 等 于 10 的 单词 是 什么 ? 
3.1.9 在 FrequencyCounter 中 添加 追踪 putQ 〇 方法 的 最 后 一 次 调用 的 代码 。 打 印 出 最 后 插入 的 那个 


单词 以 及 在 此 之 前 总 共 从 输入 中 处 理 了 多 少 个 单词 。 用 你 的 程序 处 理 tale.txt 中 长 度 分 别 大 于 等 于 
1、8 和 10 的 单词 。 


3.1.10 给 出 用 SequentialSearchST 将 键 E AS YQUE STI0N 插 入 一 个 空 符号 表 的 过 程 的 轨迹 。 


- 共 进 行 了 多 少 次 比较 ? 


3.1.11 给 出 用 BinarySearchsT 将 键 E AS Y QUE S TI0N 插 入 一 个 空 符号 表 的 过 程 的 轨迹 。 一 
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共 进 行 了 多 少 次 比较 ? 

3.1.12 修改 BinarySearchST， 用 一 个 Item 对 象 的 数组 而 非 两 个 平行 数组 来 保存 键 和 值 。 添 加 一 个 构 
造 函 数 ， 接 受 一 个 Item 的 数组 为 参数 并 将 其 归并 排序 。 9 

3.1.13 ”对 于 一 个 会 随机 混合 进行 10 次 put() 和 10 次 getO 操作 的 应 用 程序 ， 你 会 使 用 本 节 中 的 哪 
种 符号 表 的 实现 ? 说 明理 由 。 

3.1.14 对 于 一 个 会 随机 混合 进行 10 次 put() 和 10 次 get 0 操作 的 应 用 程序 ， 你 会 使 用 本 节 中 的 哪 
种 符号 表 的 实现 ? 说 明理 由 。 

3.1.15 假设 在 一 个 BinarySearchST 的 用 例 程序 中 ， 查 找 操作 的 次 数 是 插入 操作 的 1000 倍 。 当 分 别 进 
行 19、10* 和 10 次 查找 时 ， 请 估计 插入 操作 在 总 耗 时 中 的 比例 。 

3.1.16 为 BinarySearchsT 实现 delete() 方法 。 

3.1.17 为 BinarySearchsT 实现 floor() 方法 。 

3.1.18 证 明 BinarySearchST 中 rank() 方法 的 实现 的 正确 性 。 

3.1.19 修改 FrequencyCounter， 打 印 出 现 频率 最 高 的 所 有 单词 ， 而 非 其 中 之 一 。 提 示 ; 请 用 Queue。 

3.1.20 ” 补 全 命题 B 的 证 明 (证明 N 的 一 般 情况 ) 。 提 示 : 先 证 明 C(N) 的 单调 性 ， 即 对 于 所 有 的 N>0， 
CO < CN+1) 
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图 提高 是 


3.1.21 内 存 使 用 。 基 于 14 节 中 的 假设 ， 对 于 入 对 键 值 比较 BinarySearchST 和 SequentialSearchsT 的 内 
存 使 用 情况 。 不 需要 记录 键 值 本 身 占 用 的 内 存 ， 只 统计 它们 的 引用 。 对 于 BinarySearchsT， 假 
设 数组 大 小 可 以 动态 调整 ， 数 组 中 被 占用 的 空间 比例 为 25% 一 100%。 

3.1.22 自 组 织 查找 。 自 组 织 查找 指 的 是 一 种 能 够 将 数组 元 素 重新 排序 使 得 被 访问 频率 较 高 的 元 素 更 容 
易 被 找到 的 查找 算法 。 请 修改 你 为 练习 3.1.2 给 出 的 答案 ， 在 每 次 查找 命中 时 : 将 被 找到 的 键 值 
对 移动 到 数组 的 开头 ， 将 所 有 中 间 的 键 值 对 向 右 移动 一 格 。 这 个 启发 式 的 过 程 被 称 为 前 移 编码 。 

3.1.23 二 分 查找 的 分 析 。 请 证 明 对 于 大 小 为 N 的 符号 表 ， 一 次 二 分 查找 所 需 的 最 大 比较 次 数 正好 是 N 
的 二 进 制 表示 的 位 数 ， 因 为 右 移 一 位 的 操作 会 将 二 进 制 的 N 变 为 二 进 制 的 [N/2]。 

3.1.24 ”插值 法 查找 。 假 设 符号 表 的 键 支持 算术 操作 ( 例如 ， 它 们 可 能 是 Double 或 者 Interger 类 型 的 
值 ) 。 编 写 一 个 二 分 查找 来 模拟 查 字 典 的 行为 ， 例 如 当 单词 的 首 字母 在 字母 表 的 开头 时 我 们 也 
会 在 字典 的 前 半 部 分 进行 查找 。 具 体 来 说 ， 设 为 符号 表 的 第 一 个 键 ， 为 符号 表 的 最 后 一 个 
键 ， 当 要 查找 点 时 ， 先 和 |Lk- 如 kr 如 串 进 行 比较 ， 而 非 取 中 间 元 素 。 用 SearchCompare" 调 
用 FrequencyCounter 来 比较 你 的 实现 和 BinarySearchST 的 性 能 。 

3.1.25 ” 缕 存 。 因 为 默认 的 contains() 的 实现 中 调用 了 get() ， 所 以 FrequencyCounter 的 内 循环 会 将 


同一 个 键 查找 两 三 遍 : 
if (!st.contains(word)) st.put(word, 1); 
else St.put(word, st.get(word) + 1); 


为 了 能 够 提高 这 样 的 用 例 代码 的 效率 ,我 们 可 以 用 一 种 叫 缓存 的 技术 手段 ， 即 将 访问 最 频繁 的 
键 的 位 置 保存 在 一 个 变量 中 。 修改 SequentialSearchST 和 BinarySearchST 来 实现 这 个 点 子 。 [391 














外 SearchCompare 应 该 是 一 个 类 似 于 SortCompare 的 类 ， 但 实际 上 正文 中 并 没有 任何 关于 这 个 SearchCom- 
pare 类 的 内 容 。 一 一 译 者 注 


248 办 第 3 章 查 找 


3.1.26 


3.1.27 


3.1.28 


3.1.29 


3.1.30 





392 











基于 字典 的 频率 统计 。 修 改 FrequencyCounter， 接 受 一 个 字典 文件 作为 参数 ， 统 计 标 准 输入 中 
出 现在 字典 中 的 单词 的 频率 ， 并 将 单词 和 频率 打印 为 两 张 表格 ， 一 张 按照 频率 高 低 排序 ， 一 张 
按照 字典 顺序 排序 。 

小 符号 表 。 假 设 一 段 BinarySearchST 的 用 例 插入 了 N 个 不 同 的 键 并 会 进行 5 次 查找 。 当 构造 
表 的 成 本 和 所 有 查找 的 总 成 本 相同 时 ， 给 出 5 的 增长 数量 级 。 

有 序 的 插入 。 修 改 BinarySearchST， 使 得 插 人 一 个 比 当前 所 有 键 都 大 的 键 只 需要 常数 时 间 (这 
样 在 构造 符号 表 时 有 序 地 使 用 putQ 插入 键 值 对 就 只 需要 线性 时 间 了 ) 

测试 用 例 。 编 写 一 段 测 试 代码 TestBinarySearch.java 用 来 测试 正文 中 min() 、max() 、floor() 、 
ceiling() ,select() ,rankQ 〇 、deleteMin() 、deleteMax() 和 keys( 的 实现 。 可 以 参考 3.1.3.1 
节 的 索引 用 例 ， 添 加 代码 使 其 在 适当 的 情况 下 接受 更 多 的 命令 行 参数 。 

验证 。 向 BinarySearchST 中 加 入 断言 (assert ) 请 句 ， 在 每 次 插 人 和 删除 数据 后 检查 算法 的 有 
效 性 和 数据 结构 的 完整 性 。 例 如 ， 对 于 每 个 索引 必 有 i==rank(select(i)) 且 数 组 应 该 总 是 有 
序 的 。 


图 实验 下 


3.1.31 


3.1.32 


3.1.33 
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3.1.38 


性 能 测试 。 编 写 一 段 性 能 测试 程序 ， 先 用 put() 构造 一 张 符号 表 ， 再 用 get() 进行 访问 ， 使 得 
表 中 的 每 个 键 平 均 被 命中 10 次 ， 且 有 大 致 相同 次 数 的 未 命中 访问 。 键 为 长 度 从 2 到 50 不 等 的 

随机 字符 串 。 重 复 这 样 的 测试 若干 遍 ， 记 录 每 遍 的 运行 时 间 ， 打 印 平均 运行 时 间或 将 它们 绘制 

成 图 。 

练习 。 编 写 一 段 练习 程序 ， 用 困难 或 者 极端 的 但 在 实际 应 用 中 可 能 出 现 的 情况 来 测试 我 们 的 有 

序 符号 表 API。 一 些 简单 的 例子 包括 有 序 的 键 列 、 北 序 的 键 列 、 所 有 键 全 部 相同 或 者 只 含有 两 种 

不 同 的 值 。 

自 组 织 查找 。 编 写 一 段 程 序 调用 自 组 织 查找 的 实现 ( 请 见 练习 3.1.22 ) ， 用 put() 构造 一 个 大 

小 为 N 的 符号 表 ， 然 后 根据 预先 定义 好 的 概率 分 布 进行 10N 次 命中 查找 。 对 于 N=10 、10'、10” 
和 10*， 用 这 段 程序 比较 你 在 练习 3.1.22 中 的 实现 和 BinarySearchsT 的 运行 时 间 ， 在 预定 义 的 

概率 分 布 中 查找 命中 第 i 小 的 键 的 概率 为 1/2'。 

Zipf 法 则 。 用 命中 第 i 小 的 键 的 概率 为 1/(iH) 的 分 布 重新 完成 上 一 道 练习 ， 其 中 Hw 为 调和 级 数 
(请 见 表 1.4.6) 。 这 种 分 布 被 称 为 Zipf 法 则 。 比 较 前 移 编码 和 上 一 道 练习 中 的 在 特定 分 布下 的 
最 优 安排 该 安排 将 所 有 键 按 升序 排列 ( 即 按照 它们 的 期 望 频率 的 降序 排列 ) 。 

性 能 验证 I。 用 各 种 不 同 的 N 运行 双 售 测试 ， 取 《双城记 》 的 前 入 个 单词 ， 验 证 FrequencyCounter 
在 使 用 SequentialSearchST 时 所 需 的 运行 时 间 是 N 的 平方 级 别 的 猜想 。 

性 能 验证 JI。 解释 FrequencyCounter 在 使 用 BinarySearchST 时 比 使 用 SequentialSearchST 时 
的 性 能 提高 程度 好 于 预期 的 原因 。 

put/get 的 比例 。 当 FrequencyCounter 使 用 BinarySearchST 在 100 万 个 长 度 为 M 位 的 随机 
整数 中 统计 每 个 值 的 出 现 频率 时 ， 根 据 经 验 判 断 BinarySearchST 中 put() 操作 和 get() 操作 
的 耗 时 比 ， 其 中 ME10、20 和 30。 再 统计 tale.txt 并 评估 耗 时 比 ， 并 比较 两 次 的 结果 。 

均 拓 成 本 图 。 修 改 FrequencyCounter、SequentialSearchST 和 BinarySearchST， 统 计 计 算 中 
每 次 putQ 操作 的 成 本 并 生成 类 似 本 节 所 示 的 图 。 
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3.1.39 实际 耗 时 。 修 改 FrequencyCounter， 用 Stopwatch 和 StdDraw 绘图 ， 其 中 x 轴 为 get() 和 
putO) 的 调用 次 数 之 和 , 轴 为 总 运行 时 间 ， 每 次 调用 时 就 根据 已 运行 时 间 画 一 个 点 。 分 别 用 
SequentialSearchST 和 BinarySearchST 处 理 《 双 城 记 》 并 讨论 运行 的 结果 。 注 意 : 曲线 中 突 
然 的 跳跃 可 能 是 缓存 导致 的 ， 这 已 经 超出 了 这 个 问题 的 讨论 范围 。 

3.1.40 二 分 查找 的 临界 点 。 找 出 使 用 二 分 查找 比 顺序 查找 要 快 10 000 倍 和 1000 倍 的 入 值 。 分 析 并 预测 
和 的 大 小 并 通过 实验 验证 它 。 

3.1.41 插值 查找 的 临界 点 。 找 出 使 用 插值 查找 比 二 分 查找 要 快 1 倍 、2 倍 和 10 倍 的 入 值 ， 其 中 假设 所 
有 键 为 随机 的 32 位 整数 ( 请 见 练习 3.1.24 ) 。 分 析 并 预测 N 的 大 小 并 通过 实验 验证 它 。 394| 
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3.2 ”二 又 查找 树 


在 本 节 中 我 们 将 学 习 一 种 能 够 将 链表 插入 的 灵活 性 和 有 序数 组 查找 的 高 效 性 结合 起 来 的 符号 表 
实现 。 具 体 来 说 ， 就 是 使 用 每 个 结 点 含有 两 个 链接 (链表 中 每 个 结 点 只 含有 一 个 链接 ) 的 二 叉 查找 
树 来 高 效 地 实现 符号 表 ， 这 也 是 计算 机 科学 中 最 重要 的 算法 之 一 。 

首先 ， 我 们 需要 定义 一 些 术语 。 我 们 所 使 用 的 数据 结构 由 


结 点 组 成 ， 结 点 包含 的 链接 可 以 指向 空 (nu11 ) 或 者 其 他 结 点 。 
在 二 又 树 中 ， 每 个 结 点 只 能 有 一 个 父 结 点 指 疝 自己 【只 有 一 个 例 。 p< 

外 ， 也 就 是 根 结 点 ， 它 没有 父 结 点 ) ， 而 且 每 个 结 点 都 只 有 左右 。 ”< 

两 个 链接 ， 分 别 指向 自己 的 左 子 结 点 和 右 子 结 点 ( 如 图 3.2.1 所 a 
示 ) 。 尽 管 链接 指向 的 是 结 点 ， 但 我 们 可 以 将 每 个 链接 看 做 指向 人 全 
了 另 一 棵 二 叉 树 ， 而 这 棵 树 的 根 结 点 就 是 被 指向 的 结 点 。 因 此 我 了 


们 可 以 将 二 又 树 定义 为 一 个 空 链接 ， 或 者 是 一 个 有 左右 两 个 链接 a 
的 结 点 ， 每 个 链接 都 指向 一 棵 ( 独立 的 ) 子 二 又 树 。 在 二 又 查 多 
找 树 中 ， 每 个 结 点 还 包含 了 一 个 键 和 一 个 值 ， 键 之 间 也 有 顺序 之 分 以 支持 高 效 的 查找 。 


定义 。 一 棵 二 又 查找 树 (BST ) 是 一 棵 二 叉 树 ,其 中 每 个 结 点 都 含有 一 个 Comparable 的 键 ( 以 
及 相关 联 的 值 ) 且 每 个 结 点 的 键 都 大 于 其 左 子 树 中 的 任意 结 点 的 键 而 小 于 右 子 树 的 任意 结 点 
的 键 。 





我 们 在 画 出 二 叉 查 找 树 时 会 将 键 写 在 结 点 上 。 我 们 使 用 A 和 R 的 父 结 点 刍 
“A 是 EE 的 左 子 结 点 ”的 说 法 用 键 指 代 结 点 。 我 们 用 连接 ”FE 的 左 链接 Ww 
结 点 的 线 表示 链接 ， 并 将 键 对 应 的 值 写 在 结 点 旁边 ( 若 值 不 G GL 
确定 则 省 略 ) 。 除 了 空 结 点 只 表示 为 向 下 的 一 条 线段 以 外 ， tO /A 应 的 值 
每 个 结 点 的 链接 都 指向 它 下 方 的 结 点 。 和 以 前 一 样 ， 我 们 在 7 \ 
例子 中 只 会 使 用 索引 测试 用 例 生成 的 单个 字母 作为 键 ， 如 图 比 E 小 的 刍 比 E 大 的 刍 
3.2.2 所 示 。 图 3.2.2 详解 二 又 查找 树 


3.2.1 基本 实现 

算法 3.3 定 义 了 二 又 查找 树 (BST ) 的 数据 结构 ， 我 们 会 在 本 节 中 用 它 实 现 有 序 符号 表 的 
API。 首 先 我 们 要 研究 一 下 这 个 经 典 的 数据 类 型 ， 以 及 与 它 的 特点 紧密 相关 的 get() ( 查找 ) 和 
put() ( 插 人 ) 方法 的 实现 。 
3.2.1.1 数据 表示 

和 链表 一 样 ， 我 们 嵌 套 定义 了 一 个 私有 类 来 表示 二 又 查找 树 上 的 一 个 结 点 。 每 个 结 点 都 含有 一 
个 键 、 一 个 值 、 一 条 左 链接 、 一 条 右 链接 和 一 个 结 点 计数 器 ( 有 需要 时 我 们 会 在 图 中 将 结 点 计数 器 
的 值 写 在 结 点 上 方 ) 。 左 链接 指向 一 棵 由 小 于 该 结 点 的 所 有 键 组 成 的 二 叉 查找 树 ， 右 链接 指向 一 棵 
由 大 于 该 结 点 的 所 有 键 组 成 的 二 叉 查找 树 。 变 量 N 给 出 了 以 该 结 点 为 根 的 子 树 的 结 点 总 数 。 你 将 会 
看 到 ， 它 简化 了 许多 有 序 符号 表 的 操作 的 实现 。 算 法 3.3 中 实现 的 私有 方法 size() 会 将 空 链接 的 
值 当 作 0， 这 样 我 们 就 能 保证 以 下 公式 对 于 二 叉 树 中 的 任意 结 点 x 总 是 成 立 。 


Size(x) = size(x.left) + size(x.right) + 1 
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一 棵 二 叉 查找 树 代表 了 一 组 键 ( 及 其 相应 的 值 ) 的 集合 ， 而 同 
一 个 集合 可 以 用 多 棵 不 同 的 二 叉 查找 树 表 示 ( 如 图 3.2.3 所 示 ) 。 如 
果 我 们 将 一 棵 二 又 查找 树 的 所 有 键 投 影 到 一 条 直线 上 ， 保 证 一 个 结 
点 的 左 子 树 中 的 键 出 现在 它 的 左边 , 右 子 树 中 的 键 出 现在 它 的 右边 ， 
那么 我 们 一 定 可 以 得 到 一 条 有 序 的 键 列 。 我 们 会 利用 二 叉 查找 树 的 
这 种 天 生 的 灵活 性 ， 用 多 棵 二 又 查找 树 表示 同一 组 有 序 的 键 来 实现 
构建 和 使 用 二 又 查找 树 的 高 效 算法 。 
3.2.1.2 查找 

一 般 来 说 ， 在 符号 表 中 查找 一 个 键 可 能 得 到 两 种 结果 。 如 果 含 
有 该 键 的 结 点 存在 于 表 中 ,我 们 的 查找 就 命中 了 ,然后 返回 相应 的 值 
否则 查找 未 命中 ( 并 返回 nu11 ) 。 根 据 数据 表示 的 递归 结构 我 们 马 
上 就 能 得 到 ， 在 二 叉 查 找 树 中 查找 一 个 键 的 递归 算法 ， 如 果树 是 空 
的 ， 则 查找 未 命中 ; 如 果 被 查找 的 键 和 根 结 点 的 键 相等 ,查找 命中 
否则 我 们 就 (递归 地 ) 在 适当 的 子 树 中 继续 查找 。 如 果 被 查找 的 键 图 323 两 棵 能 够 表示 同一 
较 小 就 选择 左 子 树 ， 较 大 则 选择 右 子 树 。 算 法 33 ( 续 1 ) 中 递归 的 组 能 向 一 又 台 抽 树 
get 0 方法 完全 实现 了 这 段 算法 。 它 的 第 一 个 参数 是 一 个 结 点 ( 子 树 的 根 结 点 ) ， 第 二 个 参数 是 
被 查找 的 键 。 代 码 会 保证 只 有 该 结 点 所 表示 的 子 树 才 会 含有 和 被 查找 的 键 相等 的 结 点 。 和 二 分 查 
找 中 每 次 迄 代 之 后 查找 的 区 间 就 会 碱 半 一 样 ， 在 二 叉 查找 树 中 ， 随 着 我 们 不 断 向 下 查找 ， 当 前 结 
点 所 表示 的 子 树 的 大 小 也 在 减 小 ( 理想 情况 下 是 减 半 ， 但 至 少 会 有 一 个 结 点 ) 。 当 找到 一 个 含有 
被 查找 的 键 的 结 点 (命中 ) 或 者 当前 子 树 变 为 空 ( 未 命中 ) 时 这 个 过 程 才 会 结束 。 从 根 结 点 开始 ， 
在 每 个 结 点 中 查找 的 进程 都 会 递归 地 在 它 的 一 个 子 结 点 上 展开 ， 因 此 一 次 查找 也 就 定义 了 树 的 一 
条 路 径 。 对 于 命中 的 查找 ， 路 径 在 含有 被 查找 的 键 的 结 点 处 结束 。 对 于 未 命中 的 查找 ， 路 径 的 终 
点 是 一 个 空 链接 ， 如 图 3.2.4 所 示 。 


查找 R， 命 中 查找 T， 未 命中 


1 

(x 
T 
! 
| 
| 
X 













R 小 于 S， 因 此 继续 
在 左 子 树 中 查找 T 比 S 大 ， 因 此 继 


四 续 在 子 树 中 查找 


黑色 的 结 点 有 可 能 
和 被 查找 的 键 匹配 
{© 
内 Q\ 及 
负 / 凡 大 色 的 结 点 不 能 \ 
R 大 于 E， 因 此 继 (内 与 查找 的 键 匹 配 T 比 X 小 ， 因 此 改 为 
续 在 右 子 树 中 查找 在 左 子 树 中 查找 
链接 为 空 ， 因 此 T 不 
在 树 中 《来 命中 ) 


®— wa 了 R (命中 ) ， 
返回 相应 的 值 


图 3.2.4 二 又 查找 树 中 的 查找 命中 ( 左 ) 和 未 命中 ( 右 ) 
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算法 3.3 ”基于 二 叉 查找 树 的 符号 表 





public class BST<Key extends Comparable<Key>, Value> 


{ 
private Node root; // 二 又 查找 树 的 根 结 点 
private class Node 
{ 
private Key key; // 刍 
private Value val; /1/ 值 
private Node left，right;  。 // 指向 于 树 的 链接 
private int N; // 以 该 结 点 为 根 的 子 树 中 的 结 点 总 教 
public Node(Key key, Value val, int N) 
{ this.key = key; this.val = val; this.N = N; } 
2 


public int size() 
{ return size(root); } 


private int size(Node x) 

{ 
if (x == nu11) return 0; 
else return x. 





} 

public Value get(Key key) 

// 请 见 算法 3.3 ( 续 1 ) 

public void put(Key key, Value val) 
// 请 见 算法 33( 续 1 ) 


// max()、minC)、floorC)、cei1ing(D 方 法 请 见 算法 3.3( 续 2 ) 
// select()、rank( 方 法 请 见 算法 3.3 ( 续 3) 

// delete() 、deleteMin() 、deleteMax (方法 请 见 算 法 33 ( 续 4) 
// keys() 方 法 请 见 算法 33 ( 续 5 ) 


} 


这 段 代码 用 二 又 查找 树 实现 了 有 序 符号 表 的 API， 树 由 Node 对 象 组 成 ， 每 个 对 象 都 含有 一 对 键 值 
两 条 链接 和 一 个 结 点 计数 器 N。 每 个 Node 对 象 都 是 一 棵 含有 N 个 结 点 的 子 树 的 根 结 点 ， 它 的 左 链接 指向 
一 棵 由 小 于 该 结 点 的 所 有 键 组 成 的 二 叉 查找 树 ， 右 链接 指向 一 棵 由 大 于 该 结 点 的 所 有 键 组 成 的 二 叉 查 找 
树 。root 变量 指向 二 叉 查 找 树 的 根 结 点 Node 对 象 ( 这 棵 树 包含 了 符号 表 中 的 所 有 键 值 对 ) 。 本 节 会 陆 
续 给 出 其 他 方法 的 实现 。 





算法 3.3( 续 1 ) 的 实现 过 程 如 下 所 示 。 
算法 3.3 ( 续 1) “二 叉 查找 树 的 查找 和 排序 方法 的 实现 





public Value get(Key key) 

{ return get(root, key); } 

private Value get(Node x, Key key) 

{ // 在 以 x 为 根 结 点 的 于 树 中 查找 并 返回 key 所 对 应 的 值 ; 
// 如 果 找 不 到 则 返回 nu11 
if (x == nu11) return nul1; 
int cmp = key.compareTo(x.key); 


if (cmp < 0) return get(x.left, key); 
else if (cmp > 0) return get(x.right, key); 
else return x.val; 


} 


public void put(Key key, Value val) 

{ // 查找 key， 找 到 则 更 新 它 的 值 ， 和 否则 为 它 创 建 一 个 新 的 结 点 
root = put(root, key, val); 

} 


private Node put(Node x, Key key, Value val) 
当 
// 如 果 Key 存 在 于 以 x 为 根 结 点 的 于 树 中 则 更 新 它 的 值 ; 
// 否则 将 以 key 和 Va1 为 刍 值 对 的 新 结 点 插入 到 该 子 树 中 
if (x == nul1) return new Node(key, val, 1); 
int cmp = key.compareTo(x.key); 
if Cemp < 0) x.left = put(x.left, 


else x.val = val; 
Xx.N = size(x.left) + size(x.right) + 1; 
return x; 


} 


key, val); 
else if (cmp > 0) x.right = put(x.right, key, val); 
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这 段 代码 实现 了 有 序 符号 表 API 中 的 put() 和 get() 方法 ， 它 们 的 递归 实现 也 是 本 章 稍 后 将 会 讨论 
的 其 他 几 种 实现 的 模板 。 每 个 方法 的 实现 既 可 以 看 做 是 实用 的 代码 ， 也 可 以 看 做 是 之 前 讨论 的 递 推 猜想 


的 证 明 。 





3.2.1.3 插入 

算法 3.3( 续 1) 中 的 查找 代码 几乎 和 二 分 查找 的 一 样 
简单 ， 这 种 简洁 性 是 二 叉 查找 树 的 重要 特性 之 一 。 而 二 叉 查 
找 树 的 另 一 个 更 重要 的 特性 就 是 插 人 的 实现 难度 和 查找 差 不 
多 。 当 查找 一 个 不 存在 于 树 中 的 结 点 并 结束 于 一 条 空 链接 时 ， 
我 们 需要 做 的 就 是 将 链接 指向 一 个 含有 被 查找 的 键 的 新 结 点 
( 详 见 图 3.2.5) 。 算 法 3.3 ( 续 1) 中 递归 的 put() 方法 的 
实现 逻辑 和 递归 查找 很 相似 :如 果树 是 空 的 ， 就 返回 一 个 含 
有 该 键 值 对 的 新 结 点 ;如 果 被 查找 的 键 小 于 根 结 点 的 键 , 我 
们 会 继续 在 左 子 树 中 插入 该 键 ， 否 则 在 右 子 树 中 插入 该 键 。 
3.2.1.4 递归 

这 些 递 归 实现 值得 我 们 花 点 儿 时 间 去 理解 其 中 的 运行 
细节 。 可 以 将 递归 调用 前 的 代码 想象 成 党 着 树 向 下 走 : 它 会 
将 给 定 的 键 和 每 个 结 点 的 键 相 比较 并 根据 结果 向 左 或 者 向 
右 移动 到 下 一 个 结 点 。 然 后 可 以 将 递归 调用 后 的 代码 想象 成 
沿 着 树 向 上 插 。 对 于 get 0 方法， 这 对 应 着 一 系列 的 返回 
指令 (return ) ,但 是 对 于 put() 方法 ， 这 意味 着 重 置 搜 
索 路 径 上 每 个 父 结 点 指向 子 结 点 的 链接 ， 并 增加 路 径 上 每 个 
结 点 中 的 计数 器 的 值 。 在 一 棵 简单 的 二 叉 查 找 树 中 ,唯一 的 
新 链接 就 是 在 最 底层 指向 新 结 点 的 链接 ， 重 置 更 上 层 的 链接 


插入 L 9 





查找 L 的 操作 终 一 一 
止 于 这 条 链接 


治 搜 索 路 径 向 上 “了 
更 新 链接 并 增加 
结 点 计数 器 的 值 


图 3.2.5 二 又 查找 树 的 插入 操作 
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可 以 通过 比较 语句 来 避免 。 同 样 ， 我 们 只 需要 将 路 径 上 每 个 结 点 中 的 计数 器 的 值 加 1， 但 我 们 使 用 了 
更 加 通用 的 代码 ， 使 之 等 于 结 点 的 所 有 子 结 点 的 计数 器 之 和 加 1。 在 本 节 和 下 一 节 中 ， 我 们 会 学 习 一 
些 更 加 高 级 但 原理 相同 的 算法 ， 但 它们 在 搜索 路 径 上 需要 改变 的 链接 更 多 ， 也 需要 适应 性 更 强 的 代码 
来 更 新 结 点 计数 器 。 基 本 的 二 又 查找 树 的 实现 常常 是 非 递 归 的 (请 见 练习 3.2.12 ) 一 一 我 们 在 实现 中 
使 用 了 递归 ,一 来 是 为 了 便于 读者 理解 代码 的 工作 方式 ， 二 来 也 是 为 学 习 更 加 复杂 的 算法 做 准备 。 

图 3.2.6 是 对 我 们 的 标准 索引 用 例 轨迹 的 一 份 详细 的 研究 , 它 向 你 展示 了 二 叉 树 是 如 何 生长 的 。 
新 结 点 会 连接 到 树 底层 的 空 链接 上 , 树 的 其 他 部 分 则 不 会 改变 。 例 如 ,第 一 个 被 插入 的 键 就 是 根 结 点 ， 
第 二 个 被 插入 的 键 是 根 结 点 的 两 个 子 结 点 之 一 ， 以 此 类 推 。 因 为 每 个 结 点 都 含有 两 个 链接 ， 树 会 逐 
渐 长 大 而 不 是 萎缩 。 不 仅 如 此 , 因为 只 有 查找 或 者 插 和 路径 上 的 结 点 才 会 被 访问 , 所 以 随 着 树 的 增长 ， 
被 访问 的 结 点 数量 占 树 的 总 结 点 数 的 比例 也 会 不 断 的 降低 。 


so 由 ve 
更 新 


A 2 
eC 黑色 的 结 点 在 查 
oe 找 中 会 被 访问 
R 3 
he -一 人 
p 10 
C 4 
~ 灰色 的 结 点 
不 会 被 访问 
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图 3.2.6 使 用 二 又 查找 树 的 标准 索引 用 例 的 轨迹 
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3.2.2 分 析 最 好 情况 《有 
使 用 二 又 查找 树 的 算法 的 运行 时 间 取决 于 树 的 形状 ， 而 ae AR 
树 的 形状 又 取决 于 键 被 插入 的 先后 顺序 。 在 最 好 的 情况 下 


一 棵 含有 N 个 结 点 的 树 是 完全 平衡 的 ， 每 条 空 链接 和 根 结 点 
的 距离 都 为 ~ lgN。 在 最 坏 的 情况 下 ， 搜 索 路 径 上 可 能 有 AN 
个 结 点 。 如 图 3.2.7 所 示 。 但 在 一 般 情况 下 树 的 形状 和 最 好 情 
况 更 接近 。 

对 于 很 多 应 用 来 说 , 图 3.2.8 所 示 的 简单 模型 都 是 适用 的 
我 们 假设 键 的 分 布 是 ( 均匀 ) 随机 的 ， 或 者 说 它们 的 插入 顺 
序 是 随机 的 。 对 这 个 模型 的 分 析 而 言 ， 二 又 查找 树 和 快速 排 
序 几乎 就 是 “双胞胎 ”。 树 的 根 结 点 就 是 快速 排序 中 的 第 一 
个 切 分 元 素 ( 左 侧 的 键 都 比 它 小 ， 右 侧 的 键 都 比 它 大 ) ， 而 
这 对 于 所 有 的 子 树 同样 适用 ， 这 和 快速 排序 中 对 子 数组 的 递 
归 排 序 完全 对 应 。 这 使 我 们 能 够 分 析 得 到 二 又 查找 树 的 一 些 
性 质 。 图 32.7 二 又 查找 树 的 可 能 形状 








命题 C。 在 由 入 个 随机 键 构 造 的 二 叉 查 找 树 中 ， 查 找 命 中 平均 所 项 的 比较 次 数 为 ~2InN ( 约 
1.39lgN) 。 


证 明 。 一 次 结束 于 给 定 结 点 的 命中 查找 所 需 的 比较 次 数 为 查找 路 径 的 深度 加 1。 如 果 将 树 中 的 所 

有 结 点 的 深度 加 起 来 ， 我 们 就 能 够 得 到 一 棵 树 的 内 部 路 径 长 度 。 因 此 ， 在 二 又 查找 树 中 的 平均 比 

较 次 数 即 为 平均 内 部 路 径 长 度 加 1。 我 们 可 以 使 用 23 节 的 命题 K 的 证 明 得 到 它 : 令 Cw 为 由 NN 

个 随机 排序 的 不 同 键 构 造 得 到 的 二 又 查找 树 的 内 部 路 径 长 度 , 则 查找 命中 的 平均 成 本 为 ( 1fCw/V )。 

我 们 有 C=Ci=0， 且 对 于 N>1 我 们 可 以 根据 二 又 查找 树 的 递归 结构 直接 得 到 一 个 归纳 关系 式 : 
CN_IH(CuHCw IJNHCIHCw2JUNH.HCNHHCOUN 


其 中 N-1 这 一 项 表示 根 结 点 使 得 树 中 的 所 有 N-1 个 非 根 结 点 的 路 径 上 都 加 了 1。 表 达 式 的 
其 他 项 代表 了 所 有 子 树 ， 它 们 的 计算 方法 和 大 小 为 NM 的 二 又 查找 树 的 方法 相同 。 整 理 表达 式 后 
我 们 会 发 现 ， 这 个 归纳 公式 和 我 们 在 2.3 节 中 为 快速 排序 得 到 的 公式 几乎 完全 相同 ， 因 此 我 们 
同样 可 以 得 到 Cy-2NInN。 


命题 D。 在 由 NN 个 随机 键 构造 的 二 叉 查 找 树 中 插入 操作 和 查找 未 命中 平均 所 需 的 比较 次 数 为 
~2InN ( 约 1.39lgN) 。 


证 明 。 插 入 操作 和 查找 未 命中 平均 比 查 找 命中 需要 一 次 额外 的 比较 。 这 一 点 由 归纳 法 不 难得 到 
(请 见 练习 3.2.16 ) 。 


命题 C 说 明 在 二 叉 查 找 树 中 查找 随机 键 的 成 本 比 二 分 查找 高 约 39%。 命 题 D 说 明 这 些 额 外 的 
成 本 是 值得 的 ， 因 为 插入 一 个 新 键 的 成 本 是 对 数 级 别 的 一 一 这 是 基于 二 分 查找 的 有 序数 组 所 不 具备 
的 灵活 性 ， 因 为 它 的 插入 操作 所 需 访问 数组 的 次 数 是 线性 级 别 的 。 和 快速 排序 一 样 ， 比 较 次 数 的 标 
准 差 很 小 ， 因 此 NN 越 大 这 个 公式 越 准 确 。 
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实验 

我 们 的 随机 键 模型 和 典型 的 符号 表 使 用 情况 是 否 相符 ?按照 惯例 ， 这 个 问题 的 答案 需要 具体 问 
题 具体 分 析 ， 因 为 在 不 同 的 应 用 场景 中 性 能 的 差别 可 能 很 大 。 幸 好 ， 对 于 大 多 数 用 例 ， 这 个 模型 都 
能 很 好 地 适应 。 

作为 例子 ， 我们 研究 用 FrequencyCounter 处 理 长 度 大 于 等 于 8 的 单词 时 put 0) 操作 的 成 本 。 
从 图 3.2.9 可 以 看 到 ， 每 次 操作 的 平均 成 本 从 BinarySearchST 的 484 次 数组 访问 降低 到 了 二 叉 查 
找 树 的 13 次 ， 这 也 再 次 验证 了 理论 模型 所 预测 的 对 数 级 别 的 性 能 。 根 据 命 题 C 和 命题 D， 这 个 数 
值 的 合理 大 小 应 该 是 符号 表 大 小 的 自然 对 数 的 两 倍 左右 ， 因 为 对 于 一 个 几乎 充满 的 符号 表 ， 大 多 数 
操作 都 是 查找 。 这 个 预测 至 少 有 以 下 不 准确 性 : 

口 很 多 操作 都 是 在 较 小 的 符号 表 中 进行 的 ; 

口 键 不 随机 ; 

口 符号 表 可 能 太 小 ， 近 似 值 2InN 不 准确 。 

无 论 如 何 , 通过 表 3.2.1 你 都 能 看 到 , 对 于 FrequencyCounter 这 个 预测 的 误差 只 有 若干 次 比较 。 
事实 上 ， 大 多 数 误 差 都 能 通过 对 近似 值 的 数学 表达 式 的 改进 得 到 解释 ( 请 见 练习 3.2.35 ) 。 


图 3.2.8 一 棵 典型 的 二 又 查找 树 ， 由 256 个 随机 键 组 成 


相 比 之 前 的 图 像 
20 一 /比例尺 放大 250 倍 


—13.9 


成 本 


| 


a 1 
0 操作 14 350 





图 3.2.9 使 用 二 叉 查 找 树 ， 运 行 java FrequencyCounter 8 < tale.txt 的 成 本 
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表 3.2.1 使 用 二 叉 查找 树 的 FrequencyCounter 的 每 次 put() 操作 平均 所 需 的 比较 次 数 





| tale txt 


leipzig1 


Mtxt 





单词 数 





单词 数 | 不 同 单词 数 


比较 次 数 


模型 预测 | 实际 次 数 








所 有 单词 
长 度 大 于 等 于 8 的 
单词 


135 635 


14350 





长 度 大 于 等 于 10 
的 单词 





4582 








3.2.3 ”有 序 性 相关 的 方法 与 删除 操作 


17.5 












21 1914 55 | 534 580 









22.1 








4239597 | 299593 








214 











1610829 | 165555 








20.5 19.3 





















二 叉 查 找 树 得 以 广泛 应 用 的 一 个 重要 原因 就 是 它 能 够 保持 键 的 有 序 性 ， 因 此 它 可 以 作为 实现 有 
序 符号 表 API ( 请 见 3.1.2 节 ) 中 的 众多 方法 的 基础 。 这 使 得 符号 表 的 用 例 不 仅 能 够 通过 键 还 能 通 
过 键 的 相对 顺序 来 访问 键 值 对 。 下 面 ， 我 们 要 研究 有 序 符号 表 API 中 各 个 方法 的 实现 。 


3.2.3.1 最 大 键 和 最 小 键 

如 果 根 结 点 的 左 链接 为 空 ， 那 么 一 棵 二 又 查找 
树 中 最 小 的 键 就 是 根 结 点 ;如果 左 链接 非 空 ， 那 么 
树 中 的 最 小 键 就 是 左 子 树 中 的 最 小 键 。 这 不 仅 描述 
了 算法 3.3( 续 2) 中 minQ 方法 的 递归 实现 ， 同 时 
也 递 推 地 证 明了 它 能 够 在 二 叉 查 找 树 中 找到 最 小 的 
键 。 简 单 的 循环 也 能 等 价 实现 这 段 描述 ， 但 为 了 保 
持 一 致 性 我 们 使 用 了 递归 。 我 们 可 以 让 递归 调用 返 
回 键 Key 而 非 结 点 对 象 Node， 但 我 们 后 面 还 会 用 到 
这 方法 来 找 出 含有 最 小 键 的 结 点 。 找 出 最 大 键 的 方 
法 也 是 类 似 的 ， 只 是 变 为 查找 右 子 树 而 已 。 
3.2.3.2 ”向 上 取 整 和 向 下 取 整 

如 果 给 定 的 键 key 小 于 二 又 查找 树 的 根 结 点 的 
键 ， 那 么 小 于 等 于 key 的 最 大 键 (floor ) 一 定 在 根 
结 点 的 左 子 树 中 ; 如 果 给 定 的 键 key 大 于 二 叉 查找 
树 的 根 结 点 ,那么 只 有 当 根 结 点 右 子 树 中 存在 小 于 
等 于 key 的 结 点 时 ， 小 于 等 于 key 的 最 大 键 才 会 出 
现在 右 子 树 中 ， 否 则 根 结 点 就 是 小 于 等 于 key 的 最 
大 键 。 这 段 描述 说 明了 fioor0 方法 的 递归 实现 ， 
同时 也 递 推 地 证 明了 它 能 够 计算 出 预期 的 结果 。 将 
“ 左 ” 变 为 “ 右 ” ( 同时 将 小 于 变 为 大 于 ) 就 能 够 
得 到 cei1ing0) 的 算法 。 向 上 取 整 函数 的 计算 如 图 
3.2.10 所 示 。 
3.2.3.3 选择 操作 






二 叉 查找 树 中 的 选择 操作 和 2.5 节 中 我 们 学 习 过 的 基于 切 分 的 数组 选择 操作 类 似 。 我 们 在 二 又 
查找 树 的 每 个 结 点 中 维护 的 子 树 结 点 计数 器 变量 N 就 是 用 来 支持 此 操作 的 。 





405 
查找 floor(G) 
QQ 
(x 
IR) 
G 小 于 S， 因 此 
(M floor(@) 肖 
定 在 左 子 树 中 
G 大 于 E， 因 此 
floor(G) 可 
能 在 右 子 树 中 
© 
‘ 
在 左 子 树 中 未 
能 找到 floor(G) 
© 
最 终结 果 
图 3.2.10 计算 floorQ 函数 
[406 
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算法 3.3 ( 续 2) ”二 叉 查找 树 中 max()、min()、 人 loor()、ceilingQ 方法 的 实现 





public Key minO 

{ 
return min(root).key; 

} 

private Node min(Node x) 

{ 
if (x.left == null) return x; 
return min(x. left); 

学 

public Key floor(Key key) 

{ 
Node x = floor(root, key); 
if (x == null) return nyull; 
return x.key; 

} 

private Node floor(Node x, Key key) 
if (x == null) return null; 
int cmp = key.compareTo(x.key); 
if (cmp == 0) return x; 
if (cmp < 0) return floor(x.left, key); 
Node t = floor(x.right, key); 
if (t l= null) return ti 
else return x; 


} 

每 个 公有 方法 都 对 应 着 一 个 私有 方法 ， 它 接受 一 个 额外 的 链接 作为 参数 指向 某 个 结 点 ， 通 过 正文 
中 描述 的 递归 方法 查找 返回 nu11 或 者 含有 指定 Key 的 结 点 Node。max() 和 ceiling0 的 实现 分 别 与 
min() 和 floor0 方法 基本 相同 ， 只 是 将 代码 中 的 left 和 right ( 以 及 > 和 三 ) 调换 而 已 。 





假设 我 们 想 找到 排名 为 的 键 ( 即 树 中 正好 有 个 小 于 它 的 键 )。 如 果 左 子 树 中 的 结 点 数 !* 大 于 和, 
那么 我 们 就 继续 ( 递归 地 ) 在 左 子 树 中 查找 排名 为 上 的 键 ; 如 果 :等 于 上, 我 们 就 返回 根 结 点 中 的 键 ; 
如 果 :小 于 大 我们 就 (递归 地 ) 在 右 子 树 中 查找 排名 为 (kt-1 ) 的 键 。 和 刚才 一 样 ， 这 段 描述 既 
说 明了 select() 方法 的 递归 实现 同时 也 证 明了 它 的 正确 性 ， 此 过 程 如 图 3.2.11 所 示 。 
3.2.3.4 排名 

rank() 是 select0Q 的 逆 方 法 ， 它 会 返回 给 定 键 的 排名 。 它 的 实现 和 select 0 类似: 如果 给 
定 的 键 和 根 结 点 的 键 相等 ， 我 们 返回 左 子 树 中 的 结 点 总 数 二 如 果 给 定 的 键 小 于 根 结 点 ， 我 们 会 返 
回 该 键 在 左 子 树 中 的 排名 ( 递归 计算 ) ;如果 给 定 的 键 大 于 根 结 点 ， 我 们 会 返回 #+1 ( 根 结 点 ) 加 
上 它 在 右 子 树 中 的 排名 ( 递归 计算 ) 。 

二 叉 查 找 树 中 选择 和 排名 操作 的 实现 如 算法 3.3( 续 3 ) 所 示 。 


算法 3.3 ( 续 3) ”二 叉 查找 树 中 select() 和 rank() 方法 的 实现 





public Key selectCint k) 
{ 
return select(root, k).key; 
} 
private Node select(Node x, int k) 


萎 。 // 返回 排名 为 K 的 结 点 
if (x == nu11) return nul1; 
int t = size(x. left); 


证 (t > k) return select(x.left, kK); 
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else if (t < k) return select(x.right, k-t-1); 


else return x; 
public int rank(Key key) 
{ return rank(key, root); } 
private int rank(Key key, Node x) 
{ // 返回 以 x 为 根 结 点 的 子 树 中 小 于 X.key 的 键 的 教 量 
if (x == nul1) return 0; 
int cmp = key.compareTo(x.key); 


if {cmp < 0) return rank(key, x.left); 


else if (cmp > 0) return 1 + size(x.left) + rank(key, x.right); 


else return size(x.left); 
} 


这 段 代 码 使 用 了 和 我 们 已 经 在 本 章 中 学 习 过 的 其 他 实现 中 一 样 的 递归 模式 实现 了 select() 和 
rank() 方法 。 它 依赖 于 本 节 开始 处 给 出 的 size() 方法 来 统计 每 个 结 点 以 下 的 子 结 点 总 数 。 





3.2.3.5 ”删除 最 大 键 和 删除 最 小 键 

二 叉 查找 树 中 最 难 实现 的 方法 就 是 delete() 
方法 ， 即 从 符号 表 中 删除 一 个 键 值 对 。 作 为 热身 运 
动 ， 我 们 先 考虑 deleteMin0) 方法 ( 删除 最 小 键 
所 对 应 的 键 值 对 ) ， 如 图 5.2.12 所 示 。 和 putQ 一 
样 ， 我 们 的 递归 方法 接受 一 个 指向 结 点 的 链接 ， 并 
返回 一 个 指向 结 点 的 链接 。 这 样 我 们 就 能 够 方便 地 
改变 树 的 结构 , 将 返回 的 链接 赋 给 作为 参数 的 链接 。 
对 于 deleteMin() ， 我 们 要 不 断 深入 根 结 点 的 左 于 
树 中 直至 过 见 一 个 空 链接 ， 然 后 将 指向 该 结 点 的 链 
接 指向 该 结 点 的 右 子 树 ( 只 需要 在 递归 调用 中 返回 
它 的 右 链接 即 可 ) 。 此 时 已 经 没有 任何 链接 指向 要 
被 删除 的 结 点 ， 因 此 它 会 被 垃圾 收集 器 清理 掉 。 我 
们 给 出 的 标准 递归 代码 在 删除 结 点 后 会 正确 地 设置 
它 的 父 结 点 的 链接 并 更 新 它 到 根 结 点 的 路 径 上 的 所 
有 结 点 的 计数 器 的 值 。deleteMax 0) 方法 的 实现 和 
deleteMin() 完全 类 似 。 
3.2.3.6 ”删除 操作 

我 们 可 以 用 类 似 的 方式 删除 任意 只 有 一 个 子 结 
点 (或 者 没有 子 结 点 ) 的 结 点 ， 但 应 该 怎样 删除 一 
个 拥有 两 个 子 结 点 的 结 点 呢 ? 删除 之 后 我 们 要 处 理 
两 棵 子 树 ， 但 被 删除 结 点 的 父 结 点 只 有 一 条 空 出 来 
的 链接 。T Hibbard 在 1962 年 提出 了 解决 这 个 难题 
的 第 一 个 方法 ， 在 删除 结 点 x 后 用 它 的 后 继 结 点 填 


计算 select(3) ， 
即 找 出 排名 为 3 的 键 
结 点 计 
数 器 N 8 
左 子 树 中 共有 8 个 结 
0 点 ， 因 此 继续 在 左 子 
树 中 查找 排名 为 3 的 键 
oo 
左 子 树 中 共有 2 个 结 点 ， 


因此 继续 在 右 子 树 中 查 
找 排名 为 3-2-1=0 的 键 


2 
en 


因此 继续 在 左 子 树 中 搜 
索 排名 为 0 的 键 


了 
左 子 树 中 共有 0 个 结 点 
且 正在 查找 排名 为 0 的 
键 ， 因 此 返回 H 


3.2.11 二 又 查找 树 中 的 select() 操作 
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补 它 的 位 置 。 因 为 x 有 一 个 右 子 结 点 ， 因 此 它 的 后 继 结 点 就 是 其 右 子 树 中 的 最 小 结 点 。 这 样 的 替换 
仍然 能 够 保证 树 的 有 序 性 ， 因 为 x.key 和 它 的 后 继 结 点 的 键 之 间 不 存在 其 他 的 键 。 我 们 能 够 用 4 个 
简单 的 步 又 完成 将 x 替换 为 它 的 后 继 结 点 的 任务 ( 具体 过 程 如 图 3.2.13 所 示 ) : 

口 将 指向 即将 被 删除 的 结 点 的 链接 保存 为 t; 

口 将 x 指 向 它 的 后 继 结 点 minCt. right); 

口 将 x 的 右 链接 ( 原本 指向 一 棵 所 有 结 点 都 大 于 x.key 的 二 叉 查找 树 ) 指向 deleteMin(t. 

right) ， 也 就 是 在 删除 后 所 有 结 点 仍然 都 大 于 x. key 的 子 二 又 查找 树 ; 
口 将 x 的 左 链接 ( 本 为 空 ) 设 为 t+.1eft ( 其 下 所 有 的 键 都 小 于 被 删除 的 结 点 和 它 的 后 继 


结 点 ) 。 


一 一 后 继 结 点 为 
min(t.right) 


不 断 检索 左 子 
树 直至 遇见 空 t 
的 左 链接 、 
1 2 
™ 


返回 该 结 先 取 右 子 树 ， 然 / 
点 的 右 链接 后 再 不 断 检查 左 
NS 子 树 ， 直 至 遇 到 
空 的 左 链接 


x 
| .left 和 六 deleteMin(t.right: 
它 会 被 当做 t af (t.right) 
垃圾 回收 


递归 调用 后 更 新 
链接 和 结 点 计数 器 7 


WW dc 
在 递归 调用 后 


更 新 链接 和 结 
点 计数 器 


图 3.2.12 ”删除 二 叉 查找 树 中 的 最 小 结 点 32.13 二 叉 查找 树 中 的 删除 操作 


在 递归 调用 后 我 们 会 修正 被 删除 的 结 点 的 父 结 点 的 链接 ， 并 将 由 此 结 点 到 根 结 点 的 路 径 上 的 所 
有 结 点 的 计数 器 减 1 ( 这 里 计数 器 的 值 仍然 会 被 设 为 其 所 有 子 树 中 的 结 点 总 数 加 一 ) 。 尽 管 这 种 方 
法 能 够 正确 地 删除 一 个 结 点 ， 它 的 一 个 缺陷 是 可 能 会 在 某 些 实际 应 用 中 产生 性 能 问题 。 这 个 问题 在 
于 选用 后 继 结 点 是 一 个 随意 的 决定 ， 且 没有 考虑 树 的 对 称 性 。 可 以 使 用 它 的 前 继 结 点 吗 ? 实际 上 ， 
408| 前 继 结 点 和 后 继 结 点 的 选择 应 该 是 随机 的 。 详 细 讨 论 请 见 练习 3.2.42。 
410| 二 叉 查 找 树 中 删除 操作 的 实现 如 算法 3.3( 续 4) 所 示 。 
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算法 3.3 ( 续 4) 二 叉 查 找 树 的 delete() 方法 的 实现 





public void deleteMin() 
{ 

root = deleteMin(root); 
} 


private Node deleteMin(Node x) 

{ 
if Cx.1eft == nu11) return x.right; 
x.left = deleteMin(x. left); 
XN = size(x.left) + size(x.right) + 1; 
return x; 

} 


public void delete(Key key) 
{ root = delete(root, key); } 


private Node delete(Node x, Key key) 
{ 

if (x == nul1) return null; 

int cmp = key.compareTo(x.key); 


if (cmp < 0) x.left = delete(x.left, key); 
else if (cmp > 0) x.right = delete(x.right, key); 
else 

{ 


if (x.right == null) return x.left; 
if (x.left == null) return x.right; 
Node t = x; 
X = min(t.right); // 请 见 算法 3.3 ( 续 2) 
x.right = deleteMin(t.right); 
x.left = t.left; 

} 

Xx.N = Size(x.left) + size(x.right) + 1; 

return xi 

} 


如 前 文 所 述 ， 这 段 代码 实现 了 Hibbard 的 二 又 查找 树 中 对 结 点 的 即时 删除 。delete() 方法 的 代码 
很 简洁 ， 但 不 简单 。 也 许 理解 它 的 最 好 办 法 就 是 读 懂 正文 中 的 讲解 ， 试 着 自己 实现 它 并 对 比 自己 的 代码 
和 这 段 代码 。 一 般 情况 下 这 段 代码 的 效率 不 错 ， 但 对 于 大 规模 的 应 用 来 说 可 能 会 有 一 点 问题 ( 请 见 练习 
3.2.42 ) 。deleteMax() 的 实现 和 deleteMin() 类 似 ， 只 需 将 左 改 为 右 即 可 。 411 

















3.2.3.7 ”范围 查找 
要 实现 能 够 返回 给 定 范围 内 键 的 keys( 方法 ,我 们 首先 需要 一 个 遍历 二 又 查找 树 的 基本 方法 ， 

叫做 中 序 遍 万。 要 说 明 这 个 方法 ,我 们 先 看 看 如 何 能 够 将 二 又 查找 树 中 的 所 有 键 按照 顺序 打印 出 来 。 

要 做 到 这 一 点 ， 我 们 应 该 先 打印 出 根 结 点 的 左 子 树 中 的 

所 有 键 (根据 二 又 查找 树 的 定义 它们 应 该 都 小 于 根 结 点 。 2" te void PrintCNode 四 


的 键 ) ， 然 后 打印 出 根 结 点 的 键 ， 最 后 打印 出 根 结 点 的 1 
= WY nt(x. le 9 

右 子 树 中 的 所 有 键 (根据 二 又 查找 树 的 定义 它们 应 该 都 EAC rE ER 

大 于 根 结 点 的 键 ) ， 如 右 侧 的 代码 所 示 。 printCx.right); 


和 以 前 一 样 ， 刚 才 的 描述 也 递 推 地 证 明了 这 段 。 1} 
代码 能 够 顺序 打印 树 中 的 所 有 键 。 为 了 实现 接受 两 接 顺 序 打印 一 叉 查找 树 中 的 所 有 刍 
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个 参数 并 能 够 将 给 定 范围 内 的 键 返回 给 用 例 的 keys() 方法 ， 我 们 可 以 修改 一 下 这 段 代 码 ， 将 
所 有 落 在 给 定 范围 以 内 的 键 加 入 一 个 队列 Queue 并 跳 过 那些 不 可 能 含有 所 查找 键 的 子 树 。 和 
BinarySearchsT 一 样 ， 用 例 不 需要 知道 我 们 使 用 Queue 来 收集 符合 条 件 的 键 。 我 们 使 用 什么 数 
据 结构 来 实现 Iterable<Key> 并 不 重要 ， 用 例 只 要 能 够 使 用 Java 的 foreach 语句 遍历 返回 的 所 
有 键 就 可 以 了 。 

二 叉 查找 树 的 范围 查找 操作 的 实现 如 算法 33 ( 续 5) 所 示 。 


算法 3.3 ( 续 5) ”二 叉 查找 树 的 范围 查找 操作 


public Iterable<key> keysO) 
{ return keys(minO), maxO); } 





public Iterable<key> keys(Key lo, Key hi) 
{ 
Queue<Key> queue = new Queue<Key>O); 
keys(root, queue, 10, hi); 
return queue; 
} 


private void keys(Node x, Queue<Key> queue, Key 10, Key hi) 
{ 

if (x == nu11) return; 

int cmplo = 10.compareTo(x.key); 

int cmphi = hi.compareToCx.key); 

if (cmplo < 0) keys(x.left, queue, 10, hi); 

if (cmplo <= 0 && cmphi >= 0) queue.enqueue(x.key); 

if (cmphi > 0) keys(x.right, queue, 10, hi); 
} 


为 了 确保 以 给 定 结 点 为 根 的 子 树 中 所 有 在 指定 范围 之 内 的 键 加 入 队列 ， 我 们 会 递归 地 ) 查找 根 结 
点 的 左 子 树 ， 然 后 查找 根 结 点 ， 然 后 ( 递归 地 ) 查找 根 结 点 的 右 子 树 。 


在 [F. .了 之 间 进 行 查找 


会 比较 黑色 加 粗 的 键 但 它 
们 并 不 在 查找 范围 之 内 





(以 。 《PY 黑色 的 是 落 在 查 
找 范围 之 内 的 键 


二 叉 查 找 树 的 范围 查找 





3.2.3.8 ”性 能 分 析 


- 叉 查找 树 中 和 有 序 性 相关 的 操作 的 效率 如 何 ?要 研究 这 个 问题 , 我 们 首先 要 知道 树 的 高 度 ( 即 
树 中 任意 结 点 的 最 大 深度 ) 。 给 定 一 棵 树 ， 树 的 高 度 决定 了 所 有 操作 在 最 坏 情况 下 的 性 能 ( 范围 查 
找 除外 ， 因 为 它 的 额外 成 本 和 返回 的 键 的 数量 成 正比 ) 。 


3.2 二 又 查找 树 二 263 


命题 E。 在 一 棵 二 又 查找 树 中 ， 所 有 操作 在 最 坏 情况 下 所 需 的 时 间 都 和 树 的 高 度 成 正比 。 


证 明 。 树 的 所 有 操作 都 沿 着 树 的 一 条 或 两 条 路 径 行进 。 根 据 定 义 ， 路 径 的 长 度 不 可 能 大 于 树 的 
高 度 。 


我 们 估计 树 的 高 度 ( 即 最 坏 情况 下 的 成 本 ) 将 会 大 于 我 们 在 3.2.2 节 中 定义 的 平均 内 部 路 径 
长 度 ( 这 个 平均 值 已 经 包含 了 所 有 较 短 的 路 径 ) ， 但 会 高 多 少 呢 ? 也 许 在 你 看 来 这 个 问题 和 命 
题 C 和 命题 D 解答 的 问题 类 似 ， 但 它 的 解答 其 实 要 困难 得 多 ， 完 全 超出 了 本 书 的 范畴 。1979 年 ， 
工 Robson 证 明了 随机 键 构造 的 二 叉 查找 树 的 平均 高 度 为 树 中 结 点 数 的 对 数 级 别 ， 随 后 L. Devroye 证 
明了 对 于 足够 大 的 N， 这 个 值 趋 近 于 2.99lgN。 因 此 ， 如 果 我 们 的 应 用 中 的 插入 操作 能 够 适用 于 这 
个 随机 模型 ， 我 们 距离 实现 一 个 支持 对 数 级 别 的 所 有 操作 的 符号 表 的 目标 就 已 经 不 远 了 。 我 们 可 以 
认为 随机 构造 的 树 中 的 所 有 路 径 长 度 都 小 于 3lgN， 但 如 果 构 造 树 的 键 不 是 随机 的 怎么 办 ? 在 下 一 节 
中 你 会 看 到 在 实际 应 用 中 这 个 问题 其 实 没有 意义 ， 因 为 还 有 平衡 二 又 查找 树 ， 它 能 保证 无 论 键 的 插 
入 顺序 如 何 ， 树 的 高 度 都 将 是 总 键 数 的 对 数 。 

总 的 来 说 ， 二 叉 查找 树 的 实现 并 不 困难 ， 且 当 树 的 构造 和 随机 模型 近似 时 在 各 种 实际 应 用 场景 
中 它 都 能 进行 快速 地 查找 和 插入 。 对 于 我 们 的 例子 ( 以 及 其 他 许多 实际 应 用 场景 ) 来 说 ， 二 叉 查 找 
树 将 不 可 能 完成 的 任务 变 为 可 能 。 另 外 ， 许 多 程序 员 都 偏爱 基于 二 又 查找 树 的 符号 表 的 原因 是 它 还 
支持 高 效 的 rank() 、select() 、deleteO) 以 及 范围 查找 等 操作 。 但 同时 ， 正 如 我 们 所 强调 过 的 ， 
在 某 些 场景 中 二 叉 查 找 树 在 最 坏 情况 下 的 恶劣 性 能 仍然 是 不 可 接受 的 。 二 叉 查 找 树 的 基本 实现 的 良 
好 性 能 依赖 于 其 中 的 键 的 分 布 足够 随机 以 消除 长 路 径 。 对 于 快速 排序 ,我们 可 以 先 将 数组 打 乱 ;而 
对 于 符号 表 的 API， 我 们 无 能 为 力 ， 因 为 符号 表 的 用 例 控制 着 各 种 操作 的 先后 顺序 。 但 最 坏 情况 在 
实际 应 用 也 有 可 能 出 现 一 一 用 例 将 所 有 键 按照 顺序 或 者 逆序 插入 符号 表 就 会 增加 这 种 情况 出 现 的 概 
率 ， 而 在 没有 明确 的 警告 来 避免 这 种 行为 时 有 些 用 例 肯 定 会 尝试 这 么 做 。 这 就 是 我 们 寻找 更 好 的 算 
法 和 数据 结构 的 主要 原因 ， 这 些 算法 和 数据 结构 我 们 会 在 下 一 节 学 习 。 

本 书 中 简单 的 符号 表 实现 的 成 本 列 在 表 3.2.2 中 。 


表 3.2.2 简单 的 符号 表 实现 的 成 本 总 结 























最 坏 情况 下 的 运行 时 间 的 增长 数量 级 | 平均 情况 下 的 运行 时 间 的 增长 数量 级 
算法 〈 数 据 结构 ) (N 次 插入 之 后 ) 《〈N 次 插入 随机 键 之 后 ) 区 
| 查找 插 ”入 ”| ”查找 命中 插 入 
人 查询 ( | N | N | N2 N 否 
和 i | 站 | IeN Na 是 
a (= N N 139lgN 139leN 是 
图 答 经 


间 ”我 见 过 二 叉 查找 树 ， 但 它 的 实现 没有 使 用 递归 。 这 两 种 方式 各 有 哪些 优 缺 点 ? 
答 “一般 来 说 ， 递 归 的 实现 更 容易 验证 其 正确 性 ， 而 非 递归 的 实现 效率 更 高 。 在 练习 3.2.13 中 你 需要 用 
另 一 种 方法 实现 get() ， 你 可 能 会 注意 到 性 能 上 的 改进 。 如 果树 不 是 平衡 的 ， 函 数 调 用 的 栈 的 深度 
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问 


可 能 会 成 为 递归 实现 的 一 个 问题 。 我 们 使 用 递归 的 一 个 主要 原因 是 使 读者 能 够 轻松 过 渡 到 下 一 节 中 
的 平衡 二 又 查找 树 ， 而 且 递 归 版 本 显然 更 易于 实现 和 调试 。 

维护 Node 对 象 中 的 结 点 计数 器 似乎 需要 很 多 代码 ， 这 有 必要 吗 ? 为 什么 不 只 用 一 个 变量 来 保存 整 棵 
树 中 的 结 点 总 数 来 实现 用 例 中 的 sizeQ 方法 ? 

rank() 和 selectQ 方法 需要 知道 每 个 结 点 所 代表 的 子 树 中 的 结 点 总 数 。 如 果 你 不 需要 实现 这 些 操 
作 ， 可 以 去 掉 这 个 变量 以 简化 代码 ( 请 见 练习 3.2.12 ) 。 要 保证 所 有 结 点 中 的 计数 器 的 正确 性 的 确 
很 容易 出 错 ， 但 这 个 值 在 调试 中 同样 有 用 。 你 也 可 以 用 递归 的 方法 实现 用 例 中 的 sizeQ) 函数 ， 但 这 
样 统计 所 有 结 点 的 运行 时 间 可 能 是 线性 的 。 这 十 分 危险 ， 因 为 如 果 不 知道 这 么 一 个 简单 的 操作 会 如 
此 耗 时 ， 用 例 的 性 能 可 能 会 变 得 很 差 。 


图 练 


3.2.1 将 EA SY Q UE ST 了 I 0 N 作 为 键 按 顺 序 插入 一 棵 初始 为 空 的 二 叉 查 找 树 中 (方便 起 见 设 第 
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i 个 键 对 应 的 值 为 1) ， 画 出 生成 的 二 叉 查 找 树 。 构 造 这 棵 树 需要 多 少 次 比较 ? 


3.2.2 将 A X C S E R H 作 为 键 按 顺序 插入 将 会 构造 出 一 棵 最 坏 情况 下 的 二 叉 查 找 树 结构 ， 最 下 方 的 结 


点 的 两 个 链接 全 部 为 空 ， 其 他 结 点 都 含有 一 个 空 链接 。 用 这 些 键 给 出 构造 最 坏 情况 下 的 树 的 其 他 
5 种 排列 。 


3.2.3 给 出 A X C 5S E R H 的 5 种 能 够 构造 出 最 优 二 叉 查找 树 的 排列 。 
3.2.4 ”假设 某 棵 二 叉 查 找 树 的 所 有 键 均 为 1 至 10 的 整数 ， 而 我 们 要 查找 5。 那 么 以 下 哪个 不 可 能 是 键 的 


检查 序列 ? 

a. 10, 9, 8, 7, 6, 5 

b. 4, 10, 8, 7, 5, 3 

c. 1, 10, 2, 9, 3, 8, 4, 7, 6, 5 
d 2,7,3,8,4,5 
e.1,2,10,4,8,5 


3.2.5 假设 已 知 某 棵 二 又 查找 树 中 的 每 个 结 点 的 查找 频率 ， 且 我 们 可 以 以 任意 顺序 用 它们 构造 一 棵 树 。 


我 们 是 应 该 按照 查找 频率 的 顺序 由 高 到 低 或 是 由 供 到 高 将 它们 插入 ， 还 是 用 其 他 某 种 顺序 ? 证 明 
你 的 结论 。 


3.2.6 为 二 又 查找 树 添加 一 个 方法 height() 来 计算 树 的 高 度 。 实 现 两 种 方案 : 一 种 使 用 递归 ( 用 时 为 


线性 级 别 ， 所 需 空间 和 树 高 成 正比 ) ， 一 种 模仿 size() 在 每 个 结 点 中 添加 一 个 变量 ( 所 需 空间 
为 线性 级 别 ， 查 询 耗 时 为 常数 ) 。 


3.2.7 为 二 叉 查 找 树 添加 一 个 方法 avgCompares 0 来 计算 一 棵 给 定 的 树 中 的 一 次 随机 命中 查找 平均 所 需 


的 比较 次 数 ( 即 树 的 内 部 路 径 长 度 除 以 树 的 大 小 再 加 1 ) 。 实 现 两 种 方案 : 一 种 使 用 递归 ( 用 时 
为 线性 级 别 ， 所 需 空间 和 树 高 成 正比 ) ， 一 种 模仿 size() 在 每 个 结 点 中 添加 一 个 变量 ( 所 需 空 
间 为 线性 级 别 ， 查 询 耗 时 为 常数 ) 。 


3.2.8 ”编写 一 个 静态 方法 optCompares() ， 接 受 一 个 整 型 参数 N 并 计算 一 棵 最 优 ( 完美 平衡 的 ) 二 叉 查 


找 树 中 的 一 次 随机 查找 命中 平均 所 需 的 比较 次 数 ， 如 果树 中 的 链接 数量 为 2 的 赛 ， 那 么 所 有 的 空 
链接 都 应 该 在 同一 层 ， 否 则 则 分 布 在 最 底部 的 两 层 中 。 


3.2.9 对 于 N=2、3、4、5 和 6， 画 出 用 NN 个 键 可 能 构造 出 的 所 有 不 同形 状 的 二 叉 查 找 树 。 
3.2.10 编写 一 个 测试 用 例 TestBSTjava 来 测试 正文 中 minO、maxQO)、floorO)、ceiling()、 


3.2.11 


3.2.12 
3.2.13 


3.2.14 
3.2.15 


3.2.16 
3.2.17 
3.2.18 
3.2.19 
3.2.20 
3.2.21 


3.2.22 
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select()、rank()、delete()、deleteMin() 、deleteMax() 和 keysQ 方法 的 实现 。 可 以 参 
考 3.1.3.1 节 的 标准 索引 用 例 ， 使 它 接受 其 他 合适 的 命令 行 参数 。 
高 度 为 N 且 含有 个 结 点 的 二 叉 树 能 有 和 多少 种 形状 ? 使 用 个 不 同 的 键 能 有 多 少 种 不 同 的 方式 
构造 一 棵 高 度 为 N 的 二 叉 查找 树 ? ( 参考 练习 3.2.2 ) 
实现 一 种 二 又 查找 树 ， 舍 弃 rank() 和 select0 方法 并 且 不 在 Node 对 象 中 使 用 计数 器 。 
为 二 叉 查找 树 实现 非 递归 的 putO 和 getO 方法 。 
部 分 解答 ， 以 下 是 get() 方法 的 实现 : 
public Value get(Key key) 
Node x = root; 
while (x != nul11) 
int cmp = key.compareToCx.key); 
if (cmp == 0) return x.val; 
else if (cmp < 0) x = x.left; 
else if (cmp > 0) x = x.right; 
a nul1; 
} 
put () 的 实现 更 复杂 一 些 ， 因 为 它 需要 保存 一 个 指向 底层 结 点 的 链接 ， 以 便 使 之 成 为 新 结 点 的 
父 结 点 。 你 还 需要 额外 遍历 一 遍 查 找 路 径 来 更 新 所 有 的 结 点 计数 器 以 保证 结 点 插入 的 正确 性 。 
因为 在 性 能 优先 的 实现 中 查找 的 次 数 比 插入 多 得 多 ， 有 必要 使 用 这 段 get() 代码 ， 而 相应 的 
put( 实现 则 无 关 紧 要 。 
实现 非 递归 的 min(7 、max() 、floor() 、ceiling() 、rank() 和 select0O) 方法 。 
对 于 右 下 方 的 二 叉 查 找 树 ， 给 出 计算 下 列 方法 的 过 程 中 结 点 的 访问 序列 。 
a. floor("Q") 
b. select(5) 
c. ceiling("Q") 
d rank("]") 
e. size("D' 
f. keys("D" 
设 一 棵 树 的 外 部 路 径 长 度 为 从 根 结 点 到 空 链接 的 所 有 路 径 上 的 结 点 总 数 。 证 明 对 于 大 小 为 N 的 
任意 二 叉 树 ， 其 外 部 路 径 长 度 和 内 部 路 径 长 度 之 差 为 2N ( 可 以 参考 命题 C ) 
从 练习 3.2.1 构造 的 二 叉 查 找 树 中 将 所 有 键 按照 插入 顺序 逐个 删除 并 夯 出 每 次 删除 所 得 到 的 树 。 
从 练习 3.2.1 构造 的 二 叉 查 找 树 中 将 所 有 键 按 照 字母 顺序 逐个 删除 并 画 出 每 次 删除 所 得 到 的 树 。 
从 练习 3.2.1 构造 的 二 叉 查 找 树 中 逐次 删除 树 的 根 结 点 并 画 出 每 次 删除 所 得 到 的 树 。 
请 证 明 : 对 于 含有 N 个 结 点 的 二 叉 查 找 树 ， 接 受 两 个 参数 的 size() 方法 所 需 的 运行 时 间 最 多 为 
树 高 的 倍数 加 上 查找 范围 内 的 键 的 数量 。 
为 二 叉 查找 树 添加 一 个 randomKey() 方法 来 在 和 树 高 成 正比 的 时 间 内 从 符号 表 中 随机 返回 一 
个 键 。 
请 证 明 : 若 一 棵 二 叉 查找 树 中 的 一 个 结 点 有 两 个 子 结 点 ， 那 么 它 的 后 继 结 点 不 会 有 左 子 结 点 ， 
前 继 结 点 不 会 有 右 子 结 点 。 
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3.2.23 ”delete0 方法 符合 交换 律 吗 ? ( 先 删除 x 后 删除 y 和 先 删除 y 后 删除 x 能 够 得 到 相同 的 结果 吗 ? ) 
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3.2.24 ”请 证 明 : 使 用 基于 比较 的 算法 构造 一 棵 二 叉 查 找 树 所 需 的 最 小 比较 次 数 为 lg(N!)~NgN。 








图 提高 是 


3.2.25 完美 平衡 。 编写 一 段 程序 ， 用 一 组 键 构 造 一 棵 和 二 分 查找 等 价 的 二 叉 查 找 树 。 也 就 是 说 ， 在 这 
棵 树 中 查找 任意 键 所 产生 的 比较 序列 和 在 这 组 键 中 使 用 二 分 查找 所 产生 的 比较 序列 完全 相同 。 

3.2.26 准确 的 概率 。 计 算 用 入 个 随机 的 互 不 相同 的 键 构造 出 练习 3.2.9 中 的 每 一 棵 树 的 概率 。 

3.2.27 内 存 使 用 。 基 于 1.4 节 的 假设 ， 对 于 入 对 键 值 比较 二 叉 查找 树 和 BinarySearchST 以 及 
SequentialSearchST 的 内 存 使 用 情况 。 不 需要 记录 键 值 本 身 占用 的 内 存 ， 只 统计 它们 的 引用 。 
用 图 精确 描述 一 棵 以 String 为 键 、Integer 为 值 的 二 叉 查找 树 ( 比如 FrequencyCounter 构造 
的 那 种 ) 的 内 存 使 用 情况 ， 然 后 估计 FrequencyCounter 在 使 用 二 叉 查找 树 处 理 《 双 城 记 》 时 
树 的 内 存 使 用 情况 ( 精确 到 字 节 ) 。 

3.2.28 缓存 。 修 改 二 又 查找 树 的 实现 ， 将 最 近 访 问 的 结 点 Node 保存 在 一 个 变量 中 ， 这 样 get 〇 或 
put0) 再 次 访问 同一 个 键 时 就 只 需要 常数 时 间 了 ( 参考 练习 3.1.25 ) 。 

3.2.29 二 又 树 检查 。 编 写 一 个 递归 的 方法 isBinaryTree() ， 接 受 一 个 结 点 Node 为 参数 。 如 果 以 该 结 
点 为 根 的 子 树 中 的 结 点 总 数 和 计数 器 的 值 N 相符 则 返回 true， 否 则 返回 false。 注 意 : 这 项 检 
查 也 能 保证 数据 结构 中 不 存在 环 ， 因 此 这 的 确 是 一 棵 二 叉 树 ! 

3.2.30 ”有 序 性 检查 ,编写 一 个 递归 的 方法 is0rdered() ,接受 一 个 结 点 Node 和 min .max 两 个 键 作 为 参数 。 
如 果 以 该 结 点 为 根 的 子 树 中 的 所 有 结 点 都 在 min 和 max 之 间 ，min 和 max 的 确 分 别 是 树 中 的 最 
小 和 最 大 的 结 点 且 二 叉 查找 树 的 有 序 性 对 树 中 的 所 有 键 都 成 立 ， 返 回 true， 否 则 返回 false。 

3.2.31 等 值 键 检查。 编写 一 个 方法 hasNoDup1icates()， 接 受 一 个 结 点 Node 为 参数 。 如 果 以 该 结 点 
为 根 的 二 丸 查 找 树 中 不 含有 等 值 的 键 则 返回 true， 和 否则 返回 false。 假 设 树 已 经 通过 了 前 几 道 
练习 的 检查 。 

3.2.32 验证。 编写 一 个 方法 isBSTC) ， 接 受 一 个 结 点 Node 为 参数 。 若 该 结 点 是 一 个 二 叉 查 找 树 的 根 结 
点 则 返回 true， 和 否则 返回 false。 提 示 : 这 个 任务 比 看 起 来 要 困难 ， 它 和 你 调用 前 三 题 中 各 个 
方法 的 顺序 有 关 。 
解答 : 
private boolean isBST() 





if (!isBinaryTree(root)) return false; 

if (lisOrdered(root, min(), max())) return false; 
if (!hasNoDuplicates(root)) return false; 

return true; 


3.2.33 选择 /排名 检查 。 编 写 一 个 方法 ， 对 于 0 到 sizeO 〇 -1 之 间 的 所 有 i， 检查 1 和 rank(select(i)) 
是 否 相等 ， 并 检查 二 叉 查 找 树 中 的 的 任意 刍 key 和 select(Crank(key)) 是 否 相等 。 

3.2.34 ”线性 符号 表 。 你 的 目标 是 实现 一 个 扩展 的 符号 表 ThreadST， 支 持 以 下 两 个 运行 时 间 为 常数 的 
操作 : 


Key next(Key key)，key 的 下 一 个 键 ( 若 key 为 最 大 键 则 返回 空 ) 
Key prev(Key key) ，key 的 上 一 个 键 ( 若 key 为 最 小 键 则 返回 空 ) 


3.2.35 


3.2.37 


3.2.38 
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要 做 到 这 一 点 需要 在 结 点 中 增加 pred 和 succ 两 个 变量 来 保存 结 点 的 前 继 和 后 继 结 点 ， 并 相应 
修改 put() 、deleteMin() 、deleteMax() 和 delete() 方法 来 维护 这 两 个 变量 。 

改进 的 分 析 。 为 了 更 好 地 解释 正文 表格 中 的 试验 结果 请 改进 它 的 数学 模型 。 证 明 随 着 的 增 大 ， 
在 一 棵 随机 构造 的 二 叉 查 找 树 中 ， 一 次 命中 查找 所 需 的 平均 比较 次 数 会 趋 近 于 limit(2InN)+2 y 一 
3 二 1.39lgN-1.85， 其 中 Y=0.57721…， 即 欧 拉 常数 。 提 示 : 参考 2.3 节 中 对 快速 排序 的 分 析 ，1/x 
的 积分 趋 近 于 InN+ y 。 

迁 代 器 。 能 否 实现 一 个 非 递归 版 本 的 keys © 方法 ， 其 使 用 的 额外 空间 和 树 的 高 度 成 正比 ( 和 查 
找 范围 内 的 键 的 多 少 无 关 ) ? 

按 层 遍历 。 编 写 一 个 方法 printLeve1() ， 接 受 一 个 结 点 Node 作为 参数 ， 按 照 层级 顺序 打印 以 
该 结 点 为 根 的 子 树 ( 即 按 每 个 结 点 到 根 结 点 的 距离 的 顺序 ， 同 一 层 的 结 点 应 该 按 从 左 至 右 的 顺 
序 ) 。 提 示 : 使 用 队列 Queue。 

绘图 。 为 二 叉 查找 树 添加 一 个 方法 draw() ， 按 照 正文 中 的 样式 将 树 绘制 出 来 。 提 示 : 在 结 点 中 
用 变量 保存 坐标 并 用 递归 的 方法 设置 这 些 变量 。 


图 实验 起 


3.2.39 


3.2.40 


3.2.41 


3.2.42 


3.2.43 


3.2.44 


3.2.45 


平均 情况 。 用 经 验 数据 评估 在 一 棵 由 N 个 随机 结 点 构造 的 二 叉 查 找 树 中 ， 一 次 命中 的 查找 和 未 命 
中 的 查找 平均 所 需 的 比较 次 数 的 平均 差 和 标准 差 ， 其 中 N=10:、107 和 10， 重 复 实验 100 遍 。 将 你 
的 实验 结果 和 练习 3.2.35 给 出 的 计算 平均 比较 次 数 的 公式 进行 对 比 。 

树 的 高 度 。 用 经 验 数 据 评估 一 棵 由 N 个 随机 结 点 构造 的 二 又 查找 树 的 平均 高 度 ， 其 中 N=10、 
10 和 10"， 重 复 实验 100 遍 。 将 你 的 试验 结果 和 正文 中 给 出 的 估计 值 .99lgN 进行 对 比 。 

数组 表示 。 开 发 一 个 二 叉 查 找 树 的 实现 ， 用 三 个 数组 表示 一 棵 树 ( 预先 分 配 为 构造 函数 中 所 指 
定 的 最 大 长 度 ) : 一 个 数组 用 来 保存 键 ， 一 个 数组 用 来 保存 左 链接 的 索引 ， 一 个 数组 用 来 保存 
右 链接 的 索引 。 比 较 你 的 程序 和 标准 实现 的 性 能 。 

Hibbard 删除 方法 的 性 能 问题 。 编 写 一 个 程序 ， 从 命令 行 接受 一 个 参数 N 并 构造 一 棵 
由 入 个 随机 键 生 成 的 二 叉 查找 树 ， 然 后 进入 一 个 循环 。 在 循环 中 它 先 删 除 一 个 随机 键 
(delete(select(StdRandom.uniform(N))) ) ， 然 后 再 插入 一 个 随机 键 ， 如 此 循环 由 次 。 

循环 结束 后 ， 计 算 并 打印 树 的 内 部 平均 路 径 长 度 ( 内 部 路 径 长 度 除 以 入 再 加 1) 。 对 于 N-10?、 
10 和 10*， 运 行 你 的 程序 来 验证 一 个 有 些 违反 直觉 的 假设 : 这 个 过 程 会 增加 树 的 平均 路 径 长 度 ， 
增加 的 长 度 和 的 平方 根 成 正比 。 使 用 能 够 随机 选择 前 继 或 后 继 结 点 的 delete() 方法 重复 这 
个 实验 。 

put()/get (0) 方法 的 比例 。 用 经 验 数据 评估 当 使 用 FrequencyCounter 来 统计 100 万 个 随机 整 
数 中 每 个 数 的 出 现 频率 时 ， 二 叉 查找 树 中 put Q 方法 和 get 0) 方法 所 消耗 的 时 间 的 比例 。 
绘制 成 本 图 。 改 造 二 叉 查 找 树 的 实现 来 绘制 本 节 所 示 的 那 种 能 够 显示 计算 中 每 次 put 0) 操作 成 
本 的 图 。 

实际 耗 时 。 改 造 FrequencyCounter， 使 用 Stopwatch 和 StdDraw 绘图 ， 其 中 x 轴 表 示 get() 
和 putQ 调用 的 总 数 , ? 轴 为 总 运行 时 间 ， 每 次 调用 之 后 即 在 当前 运行 时 间 处 绘制 一 个 点 。 使 用 
SequentialSearchST 和 你 的 程序 处 理 《 双 城 记 》， 再 用 BinarySearchsT 处 理 一 遍 ， 最 后 用 二 
叉 查 找 树 处 理 一 遍 ， 然 后 讨论 运行 的 结果 。 注 意 : 曲线 中 突然 的 跳跃 可 能 是 线 存 导致 的 ， 这 已 
经 超出 了 这 个 问题 的 讨论 范围 ( 请 见 练习 3.1.39 ) 。 
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3.2.46 ”二 又 查找 树 的 临界 点 。 使 用 随机 double 值 作为 键 ， 分 别 找 出 使 得 二 叉 查 找 树 的 符号 表 比 二 分 查 
找 要 快 10、100 倍 和 1000 倍 的 N 值 。 分 析 并 预测 N 的 大 小 并 通过 实验 验证 它 。 

3.2.47 平均 查找 耗 时 。 用 实验 研究 和 计算 在 一 棵 由 入 个 随机 结 点 构造 的 二 叉 查 找 树 中 到 达 任 意 结 点 的 
平均 路 径 长 度 ( 内 部 路 径 长 度 除 以 NN 再 加 1 ) 的 平均 差 和 标准 差 ， 对 于 100 到 10 000 之 间 的 每 
个 N 重 复 实验 1000 遍 。 将 结果 绘制 成 和 图 3.2.14 相似 的 一 张 Tufte 图 ， 并 画 上 函数 1.39lgN-1.85 
的 曲线 (请 见 练习 3.2.35 和 练习 3.2.39 ) 。 


IN 
IN 







1.39 lgN -1.85 


平均 路 径 长 度 


o 





100 节点 数量 N 10l000 


图 3.2.14 一 棵 随机 构造 的 二 叉 查 找 树 中 由 根 到 达 任意 结 点 的 平均 路 径 长 度 ( 另 见 彩 插 ) 
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3.3 平衡 查找 树 

我 们 在 前 面 几 节 中 学 习 过 的 算法 已 经 能 够 很 好 地 用 于 许多 应 用 程序 中 ,但 它们 在 最 坏 情况 下 的 
性 能 还 是 很 糟糕 。 在 本 节 中 我 们 会 介绍 一 种 二 分 查找 树 并 能 保证 无 论 如 何 构造 它 ， 它 的 运行 时 间 都 
是 对 数 级 别 的 。 理 想 情况 下 我 们 希望 能 够 保持 二 分 查找 树 的 平衡 性 。 在 一 棵 含有 N 个 结 点 的 树 中 ， 
我 们 希望 树 高 为 ~lgN, 这 样 我 们 就 能 保证 所 有 查找 都 能 在 ~lgN 次 比较 内 结束 , 就 和 二 分 查找 一 样 (请 
见 命题 B ) 。 不 幸 的 是 ， 在 动态 插入 中 保证 树 的 完美 平衡 的 代价 太 高 了 。 在 本 节 中 ， 我 们 稍稍 放松 
完美 平衡 的 要 求 并 将 学 习 一 种 能 够 保证 符号 表 API 中 所 有 操作 ( 范围 查找 除外 ) 均 能 够 在 对 数 时 间 
内 完成 的 数据 结构 。 


3.3.1 2-3 查找 树 

为 了 保证 查找 树 的 平衡 性 ， 我 们 需要 一 些 灵活 性 ， 因 此 在 这 里 我 们 允许 树 中 的 一 个 结 点 保存 多 
个 键 。 确 切 地 说 ， 我 们 将 一 棵 标准 的 二 叉 查找 树 中 的 结 点 称 为 2- 结 点 ( 含有 一 个 键 和 两 条 链接 ) ， 
而 现在 我 们 引入 3- 结 点 ， 它 含有 两 个 键 和 三 条 链接 。2- 结 点 和 3- 结 点 中 的 每 条 链接 都 对 应 着 其 中 
保存 的 键 所 分 割 产 生 的 一 个 区 间 。 


定义 。 一 棵 2-3 查找 树 或 为 一 棵 空 树 ， 或 由 以 下 结 点 组 成 : 
口 2- 结 点 ， 含 有 一 个 键 ( 及 其 对 应 的 值 ) 和 两 条 链接 ， 左 链接 指向 的 2-3 树 中 的 键 都 小 于 
,该 结 点 ， 右 链接 指向 的 2-3 树 中 的 键 都 大 于 该 结 点 。 
口 3- 结 点 ， 含 有 两 个 键 (及 其 对 应 的 值 ) 和 三 条 链接 ， 左 链接 指向 的 2-3 树 中 的 键 都 小 
于 该 结 点 ， 中 链接 指向 的 2.3 树 中 的 键 都 位 于 该 结 点 的 两 个 键 之 间 ， 右 链接 指向 的 2-3 
树 中 的 键 都 大 于 该 结 点 。 
和 以 前 一 样 ， 我 们 将 指向 一 棵 空 树 的 链接 称 为 空 链接 。2-3 查找 树 如 图 3.3.1 所 示 。 





图 3.3.1 2-3 查找 树 示意 图 


一 棵 完美 平衡 的 2-3 查找 树 中 的 所 有 空 链接 到 根 结 点 的 距离 都 应 该 是 相同 的 。 简 洁 起 见 ， 这 里 
我 们 用 2-3 树 指 代 一 棵 完美 平衡 的 2-3 查找 树 ( 在 其 他 情况 下 这 个 词 应 该 表示 一 种 更 一 般 的 结构 ) 。 
稍 后 我 们 将 会 学 习 定义 并 高 效 地 实现 2- 结 点 、3- 结 点 和 2-3 树 的 基本 操作 。 现 在 先 假设 我 们 已 经 能 
够 自如 地 操作 它们 并 来 看 看 应 该 如 何 将 它们 用 作 查 找 树 。 
3.3.1.1 查找 

将 二 叉 查 找 树 的 查找 算法 一 般 化 我 们 就 能 够 直接 得 到 2-3 树 的 查找 算法 。 要 判断 一 个 键 是 否 在 
树 中 ,我们 先 将 它 和 根 结 点 中 的 键 比较 。 如 果 它 和 其 中 任意 一 个 相等 ， 查 找 命中 ; 否则 我 们 就 根据 
比较 的 结果 找到 指向 相应 区 间 的 链接 ， 并 在 其 指向 的 子 树 中 递归 地 继续 查找 。 如 果 这 是 个 空 链接 ， 
查找 未 命中 。 具 体 查 找 过 程 如 图 3.3.2 所 示 。 
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对 H 的 命中 查找 对 B 的 未 命中 查找 
H 小 于 M， 在 左 子 树 中 继续 查找 8B 小 于 M， 在 左 子 树 中 继续 查找 
的 ~@ 
(CE RQ CE Q 
MD ED GONM WM A ED 
| 了 B 小 于 E， 在 左 
H 在 E 和 ] 之 间 ， 在 中 
子 树 中 继续 查找 子 树 中 继续 查找 
(ED NE 
oho. oao. 
® GD 
t 
找到 H， 返 回 相 应 的 值 ( 命 中 ) B 在 A 和 C 之 间 ， 在 中 子 树 中 继续 查找 


链接 为 空 ，B 不 在 树 中 (未 命中 ) 
图 3.3.2 2-3 树 中 的 查找 命中 ( 左 ) 和 未 命中 ( 右 ) 


3.3.1.2 向 2- 结 点 中 插入 新 刍 插入 kK 网 
要 在 2.3 树 中 插入 一 个 新 结 点 我 们 可 以 和 二 又 查找 树 Ey 
一 样 先进 行 一 次 未 命中 的 查找 , 然后 把 新 结 点 挂 在 树 的 底部 。 
但 这 样 的 话 树 无 法 保持 完美 平衡 性 。 我 们 使 用 2-3 树 的 主要 
原因 就 在 于 它 能 够 在 插入 后 继续 保持 平衡 。 如 果 未 命中 的 查 对 kK 的 查找 在 此 处 结束 
找 结束 于 一 个 2- 结 点 ， 事 情 就 好 办 了 : 我 们 只 要 把 这 个 2- 
结 点 将 换 为 一 个 3- 结 点 ， 将 要 插入 的 刍 保 存在 其 中 即 可 ( 如 
图 3.3.3 所 示 ) 。 如 果 未 命中 的 查找 结束 于 一 个 3- 结 点 ， 事 
情 就 要 麻烦 一 些 。 罕 沪 2- 结 点 等 换 为 -个 
3.3.1.3 向 一 棵 只 含有 一 个 3- 结 点 的 树 中 插入 新 键 新 的 含有 K 的 3- 结 点 


在 考虑 一 般 情况 之 前 ， 先 假设 我 们 需要 向 一 棵 只 含有 一 图 333 向 2 结 点 中 播 入 新 的 健 
个 3- 结 点 的 树 中 插入 一 个 新 键 。 这 栋 树 中 有 两 个 键 ， 所 以 
在 它 唯 一 的 结 点 中 已 经 没有 可 插 和 人 新 键 的 空间 了 。 为 了 将 新 键 插入 ， 我 们 先 临时 将 新 键 存 和 该 结 
点 中 , 使 之 成 为 一 个 4- 结 点 。 它 很 自然 地 扩展 了 以 前 的 结 点 并 含有 3 个 键 和 4 条 链接 。 创 建 一 个 4- 
结 点 很 方便 , 因为 很 容易 将 它 转换 为 一 棵 由 3 个 2- 结 点 组 成 的 2-3 树 ,其 中 一 个 结 点 ( 根 ) 含 有 中 键 ， 
一 个 结 点 含有 3 个 键 中 的 最 小 者 (和 根 结 点 的 左 链接 相连 ) ， 一 个 结 点 含有 3 个 键 中 的 最 大 者 ( 和 
根 结 点 的 右 链接 相连 )。 这 棵 树 既是 一 棵 含有 3 个 结 点 的 二 又 查找 树 , 同时 也 是 一 棵 完美 平衡 的 2-3 
树 、 因 为 其 中 所 有 的 空 链接 到 根 结 点 的 距离 都 相等 。 插 入 前 树 的 高 度 为 0， 插入 后 树 的 高 度 为 1。 
这 个 例子 很 简单 但 却 值得 学 习 ， 它 说 明了 2-3 树 是 如 何 生长 的 ， 如 图 3.3.4 所 示 。 
3.3.1.4 “向 一 个 父 结 点 为 2- 结 点 的 3- 结 点 中 插入 新 键 

作为 第 三 轮 热身 ， 假 设 未 命中 的 查找 结束 于 一 个 3- 结 点 ， 而 它 的 父 结 点 是 一 个 2- 结 点 。 在 这 
种 情况 下 我 们 需要 在 维持 树 的 完美 平衡 的 前 提 下 为 新 键 腾 出 空间 。 我 们 先 像 刚 才 一 样 构造 一 个 临时 
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的 4- 结 点 并 将 其 分 解 ， 但 此 时 我 们 不 会 为 中 键 创建 一 个 新 结 点 ， 而 是 将 其 移动 至 原来 的 父 结 点 中 。 
你 可 以 将 这 次 转换 看 成 将 指向 原 3- 结 点 的 一 条 链接 替换 为 新 父 结 点 中 的 原 中 键 左 右 两 边 的 两 条 链 
接 , 并 分 别 指向 两 个 新 的 2- 结 点 。 根 据 我 们 的 假设 , 父 结 点 中 是 有 空间 的 : 父 结 点 是 一 个 2- 结 点 (一 
个 键 两 条 链接 ) , 插 人 之 后 变 为 了 一 个 3- 结 点 ( 两 个 键 3 条 链接 ) 。 另 外 , 这 次 转换 也 并 不 影响 ( 完 
美 平衡 的 ) 2-3 树 的 主要 性 质 。 树 仍然 是 有 序 的 ， 因 为 中 键 被 移动 到 父 结 点 中 去 了 ; 树 仍然 是 完美 
平衡 的 , 插入 后 所 有 的 空 链接 到 根 结 点 的 距离 仍然 相同 。 请 确认 你 完全 理解 了 这 次 转换 一 一 它 是 2-3 
树 的 动态 变化 的 核心 ， 其 过 程 如 图 3.3.5 所 示 。 


插入 Z 
@ 对 Z 的 查找 结束 
/于 这 个 3- 结 点 
(SX 
将 3- 结 点 等 换 为 
包含 Z 的 4- 结 点 
人 
插入 S 
-一 没有 5 的 空位 了 将 2- 结 点 替换 为 含 
有 中 键 的 新 3- 结 点 
一 创建 一 个 4- 结 点 
将 4- 结 点 分 解 (9 忆 
一 为 这 棵 2-3 树 a 
将 4- 结 点 分 解 为 两 个 2- 结 点 
将 中 键 移动 至 父 结 点 中 
图 3.3.4 向 一 棵 只 含有 一 个 3- 结 点 的 图 3.3.5 向 一 个 父 结 点 为 2- 结 点 的 
树 中 插入 新 键 3- 结 点 中 插入 新 键 426 














3.3.1.5 ”向 一 个 父 结 点 为 3- 结 点 的 3- 结 点 中 插入 新 键 

现在 假设 未 命中 的 查找 结束 于 一 个 父 结 点 为 3- 结 点 的 结 点 。 我 们 再 次 和 刚才 一 样 构造 一 个 
临时 的 4- 结 点 并 分 解 它 ， 然 后 将 它 的 中 键 插 人 它 的 父 结 点 中 。 但 父 结 点 也 是 一 个 3- 结 点 ， 因 此 
我 们 再 用 这 个 中 键 构造 一 个 新 的 临时 4- 结 点 ， 然 后 在 这 个 结 点 上 进行 相同 的 变换 ， 即 分 解 这 个 
父 结 点 并 将 它 的 中 键 插入 到 它 的 父 结 点 中 去 。 推 广 到 一 般 情况 ， 我 们 就 这 样 一 直 向 上 不 断 分 解 临 
时 的 4- 结 点 并 将 中 键 插入 更 高 层 的 父 结 点 ， 直 至 遇 到 一 个 2- 结 点 并 将 它 替 换 为 一 个 不 需要 继续 
分 解 的 3- 结 点 ， 或 者 是 到 达 3- 结 点 的 根 。 该 过 程 如 图 3.3.6 所 示 。 
3.3.1.6 “分解 根 结 点 

如 果 从 插入 结 点 到 根 结 点 的 路 径 上 全 都 是 3- 结 点 , 我 们 的 根 结 点 最 终 变 成 一 个 临时 的 4- 结 点 。 
此 时 我 们 可 以 按照 向 一 棵 只 有 一 个 3- 结 点 的 树 中 插入 新 键 的 方法 处 理 这 个 问题 。 我 们 将 临时 的 4- 
结 点 分 解 为 3 个 2- 结 点 ， 使 得 树 高 加 1， 如 图 3.3.7 所 示 。 请 注意 ， 这 次 最 后 的 变换 仍然 保持 了 树 
的 完美 平衡 性 ， 因 为 它 变换 的 是 根 结 点 。 
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插入 D 


对 D 的 查找 结束 四 
TF 这 人 3- 结 点 、 (EE) 
十 AD 
将 D 加 入 3- 结 点 中 
对 D 的 查找 结束 

人 于 这 个 3- 结 点 \ 
的 4- 结 点 

入 

将 D 加 入 3- 结 点 中 使 之 


将 中 键 C 加 入 3- 结 点 使 变 成 一 个 临时 的 4- 结 点 
之 变 成 一 个 临时 的 4- 结 点 


EE 
@ 6 将 中 键 C 加 入 3- 结 点 使 
多 之 变 成 一 个 临时 的 4- 结 点 
将 4- 结 点 分 解 为 两 个 2- 结 点 Ea 
将 中 全 移动 型 父 结 点 中 
2 
之 变 成 一 - 结 点 忆 
将 4- 结 点 分 解 为 两 个 2- 结 点 
和 利生 入 名 要 全 和 天 


® 将 4- 结 点 分 解 
为 三 个 2- 结 点 一 
/7 树 高 加 1 
将 4- 结 点 分 解 为 其 个 2- 结 点 
第 从 多 各 名 从 贡 


图 3.3.6 向 一 个 父 结 点 为 3- 结 点 的 3- 结 点 中 插入 新 键 图 3.3.7 分 解 根 结 点 


3.3.1.7 局 部 变换 

将 一 个 4- 结 点 分 解 为 一 棵 2-3 树 可 能 有 6 种 情况 ， 都 总 结 在 了 图 3.3.8 中 。 这 个 4- 结 点 可 能 是 
根 结 点 ， 可 能 是 一 个 2- 结 点 的 左 子 结 点 或 者 右 子 结 点 ， 也 可 能 是 一 个 3- 结 点 的 左 子 结 点 、 中 子 结 
点 或 者 右 子 结 点 。2-3 树 插入 算 法 的 根本 在 于 这 些 变换 都 是 局 部 的 : 除了 相关 的 结 点 和 链接 之 外 不 
必修 改 或 者 检查 树 的 其 他 部 分 。 每 次 变换 中 ， 变 更 的 链接 数量 不 会 超过 一 个 很 小 的 常数 。 需 要 特别 
指出 的 是 ,不 光 是 在 树 的 底部 ， 树 中 的 任何 地 方 只 要 符合 相应 的 模式 ， 变 换 都 可 以 进行 。 每 个 变换 
都 会 将 4- 结 点 中 的 一 个 键 送 入 它 的 父 结 点 中 ， 并 重 构 相 应 的 链接 而 不 必 涉 及 树 的 其 他 部 分 。 
3.3.1.8 ”全 局 性 质 

这 些 局 部 变换 不 会 影响 树 的 全 局 有 序 性 和 平衡 性 : 任意 空 链接 到 根 结 点 的 路 径 长 度 都 是 相等 
的 。 作 为 参考 ， 图 3.3.9 所 示 的 是 当 一 个 4- 结 点 是 一 个 3- 结 点 的 中 子 结 点 时 的 完整 变换 情况 。 如 
果 在 变换 之 前 根 结 点 到 所 有 空 链接 的 路 径 长 度 为 h， 那么 变换 之 后 该 长 度 仍然 为 h。 所 有 的 变换 都 
具有 这 个 性 质 ， 即 使 是 将 一 个 4- 结 点 分 解 为 两 个 2- 结 点 并 将 其 父 结 点 由 2- 结 点 变 为 3- 结 点 , 或 
是 由 3- 结 点 变 为 一 个 临时 的 4- 结 点 时 也 是 如 此 。 当 根 结 点 被 分 解 为 3 个 2- 结 点 时 ， 所 有 空 链接 
到 根 结 点 的 路 径 长 度 才 会 加 1。 如 果 你 还 没有 完全 理解 ， 请 完成 练习 3.3.7。 它 要 求 你 为 其 他 的 5 
种 情况 画 出 图 3.3.8 的 扩展 图 来 证 明 这 一 点 。 理 解 所 有 局 部 变换 都 不 会 影响 整 棵 树 的 有 序 性 和 平衡 
性 是 理解 这 个 算法 的 关键 。 
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根 结 点 父 结 点 是 3- 结 点 时 
ge 在 左 侧 插 入 心 den 


父 结 点 是 2- 结 点 时 
在 左 侧 插入 


(qd 外 中 
abc (Q 
在 右 侧 插 入 (a) (a ©) 在 右 侧 插入 ”人 a 6) (abd) 
友 内 入 况 


图 3.3.8 在 一 棵 2-3 树 中 分 解 一 个 4- 结 点 的 情况 汇总 


于 介 于 a 介 于 b 介 于 C 介 于 d -了 
由 和 b 之 间 | 和 C 之 间 “| 和 d 之 闻 ，， 和 e 之 间 Ss 
WT TT TN TT MT 


(a c e) 
O a 


于 介 于 a 介 于 b 介 于 C 介 于 d -于 
小 于 a [和 和 b 之 各 ) 和 c 之 癌 ) ( 和 d 之 向 )( 和 e 之 间 ) (大 于 e 
NH TY I MT NT he 


图 3.3.9 4- 结 点 的 分 解 是 一 次 局 部 变换 ， 不 会 影响 树 的 有 序 性 和 平衡 性 428 


和 标准 的 二 叉 查找 树 由 上 向 下 生长 不 同 ，2-3 树 的 生长 是 由 下 向 上 的 。 如 果 你 花 点 时 间 仔细 研 
究 一 下 图 3.3.10， 就 能 很 好 地 理解 2-3 树 的 构造 方式 。 它 给 出 了 我 们 的 标准 索引 测试 用 例 中 产生 的 
“系列 2-3 树 ， 以 及 一 系列 由 同一 组 键 按照 升序 依次 插入 到 树 中 时 所 产生 的 所 有 2-3 树 。 还 记得 在 
二 叉 查找 树 中 ， 按 照 升序 插入 10 个 键 会 得 到 高 度 为 9 的 一 棵 最 差 查找 树 吗 ?” 如 果 使 用 2-3 树 ， 树 
的 高 度 是 2。 
以 上 的 文字 已 经 足够 为 我 们 定义 一 个 使 用 2-3 树 作为 数据 结构 的 符号 表 的 实现 了 。2-3 树 的 分 
析 和 二 又 查找 树 的 分 析 大 不 相同 ， 因 为 我 们 主要 感 兴趣 的 是 最 坏 情 况 下 的 性 能 ， 而 非 一 般 情况 ( 这 
种 情况 下 我 们 会 用 随机 键 模型 分 析 预 期 的 性 能 ) 。 在 符号 表 的 实现 中 ， 一 般 我 们 无 法 控制 用 例会 按 
照 什么 顺序 向 表 中 插入 键 ， 因 此 对 最 坏 情 况 的 分 析 是 唯一 能 够 提供 性 能 保证 的 办 法 。 














命题 F。 在 一 棵 大 小 为 N 的 2-3 树 中 ， 查 找 和 插入 操作 访问 的 结 点 必然 不 超过 1gN 个 。 


证 明 。 一 棵 含有 个 结 点 的 2-3 树 的 高 度 在 llogsyNj=|(lgNy(lg3)j ( 如 果树 中 全 是 3- 结 点 ) 和 
LigN]( 如 果树 中 全 是 2- 结 点 ) 之 间 ( 请 见 练习 3.3.4 ) 。 
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标准 的 索引 用 例 同一 组 键 ， 按 升序 插入 
图 3.3.10 ”2-3 树 的 构造 轨迹 

因此 我 们 可 以 确定 2-3 树 在 最 坏 情况 下 仍 有 较 好 的 性 能 。 每 个 操作 中 处 理 每 个 结 点 的 时 间 都 不 会 

超过 一 个 很 小 的 常数 ， 且 这 两 个 操作 都 只 会 访问 一 条 路 径 上 的 结 点 ， 所 以 任何 查找 或 者 插入 的 成 本 都 

肯定 不 会 超过 对 数 级 别 。 通 过 对 比 图 3.3.11 中 的 2-3 树 和 表 3.2.1 中 由 相同 的 键 构造 的 二 叉 查找 树 你 也 

可 以 看 到 ， 完 美 平衡 的 2-3 树 要 平展 得 多 。 例 如 ， 含 有 10 亿 个 结 点 的 一 棵 2-3 树 的 高 度 仅 在 19 到 30 

之 间 。 我 们 最 多 只 需要 访问 30 个 结 点 就 能 够 在 10 亿 个 键 中 进行 任意 查找 和 插入 操作 ,这 是 相当 惊人 的 。 


图 3.3.11 由 随机 键 构造 的 一 棵 典型 的 2-3 树 
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但 是 ,我们 和 真正 的 实现 还 有 一 段 距离 。 尽 管 我 们 可 以 用 不 同 的 数据 类 型 表示 2- 结 点 和 3- 结 
点 并 写 出 变换 所 需 的 代码 ， 但 用 这 种 直 白 的 表示 方法 实现 大 多 数 的 操作 并 不 方便 ， 因 为 需要 处 理 的 
情况 实在 太 多 。 我 们 需要 维护 两 种 不 同类 型 的 结 点 ， 将 被 查找 的 键 和 结 点 中 的 每 个 键 进行 比较 ， 将 
链接 和 其 他 信息 从 一 种 结 点 复制 到 另 一 种 结 点 ， 将 结 点 从 一 种 数据 类 型 转换 到 另 一 种 数据 类 型 ， 等 
等 。 实 现 这 些 不 仅 需要 大 量 的 代码 ， 而 且 它们 所 产生 的 额外 开销 可 能 会 使 算法 比 标准 的 二 又 查找 树 
更 慢 。 平 衡 一 棵 树 的 初衷 是 为 了 消除 最 坏 情况 ， 但 我 们 希望 这 种 保障 所 需 的 代码 能 够 越 少 越 好 。 幸 429 
运 的 是 你 将 看 到 ， 我 们 只 需要 一 点 点 代价 就 能 用 一 种 统一 的 方式 完成 所 有 变换 。 431 


3.3.2” 红 黑 二 又 查找 树 

上 文 所 述 的 2-3 树 的 插入 算法 并 不 难 理解 ， 现 在 我 们 会 看 到 它 也 不 难 实现 。 我 们 要 学 习 一 种 名 
为 红 黑 二 又 查找 树 的 简单 数据 结构 来 表达 并 实现 它 。 最 后 的 代码 量 并 不 大 ， 但 理解 这 些 代码 是 如 何 
工作 的 以 及 为 什么 能 够 工作 却 需要 一 番 仔细 的 探究 。 
3.3.2.1 替换 3- 结 点 

红 黑 二 叉 查 找 树 背 后 的 基本 思想 是 用 标准 的 二 叉 查 找 树 ( 完 3- 结 点 (a5) 
全 由 2- 结 点 构成 ) 和 一 些 额外 的 信息 ( 替换 3 - 结 点 ) 来 表示 2-3 一 
树 。 我 们 将 树 中 的 链接 分 为 两 种 类 型 : 红 链接 将 两 个 2- 结 点 连 Ta) (MINN (Fb 
接 起 来 构成 一 个 3- 结 点 ， 黑 链接 则 是 2-3 树 中 的 普通 链接 。 确 NA NA rr 














切 地 说 ， 我 们 将 3- 结 点 表示 为 由 一 条 堪 针 的 红色 链接 ( 两 个 2- (ob) 
结 点 其 中 之 一 是 另 一 个 的 左 子 结 点 ) 相连 的 两 个 2- 结 点 ， 如 图 人 - 
3.3.12 所 示 。 这 种 表示 法 的 一 个 优点 是 ,我们 无 需 修改 就 可 以 直 人 TAN 大利 


于 

接 使 用 标准 二 叉 查找 树 的 get() 方法 。 对 于 任意 的 23 树 , 只 0 yb 由 | 
要 对 结 点 进行 转换 ， 我 们 都 可 以 立即 派生 出 一 棵 对 应 的 二 叉 查 
找 树 。 我 们 将 用 这 种 方式 表示 2.3 村 的 二 又 查找 树 称 为 红 时 二 又 。 图 33.12 内 元 条 红包 在 链 搂 相 过 
查找 树 (以 下 简称 为 红 黑 树 ) 。 个 3- 结 点 ( 另 见 彩 插 ) 
3.3.2.2 一 种 等 价 的 定义 

红 黑 树 的 另 一 种 定义 是 含有 红 黑 链接 并 满足 下 列 条 件 的 二 又 查 找 树 ， 

口红 链接 均 为 左 链接 ; 

口 没有 任何 一 个 结 点 同时 和 两 条 红 链接 相连 ; 

口 该 树 是 完 半 黑色 平 街 的 ， 即 任意 空 链接 到 根 结 点 的 路 径 上 的 黑 链 接 数量 相同 。 

满足 这 样 定义 的 红 黑 树 和 相应 的 2.3 树 是 一 一 对 应 的 。 
3.3.2.3 一 一 对 应 

如 果 我 们 将 一 标 红 黑 树 中 的 红 链 接 画 平 ,那么 所 有 的 从 链接 到 根 结 点 的 距离 都 将 是 相同 的 ( 如 
图 3.3.13 所 示 ) 。 如 果 我 们 将 由 红 链 接 相连 的 结 点 合并 ， 得 到 的 就 是 一 覃 2.3 树 。 相 反 ， 如 果 将 

- 棵 2-3 树 中 的 3- 结 点 画作 由 红包 左 链接 相连 的 两 个 2- 结 点 ， 那 么 不 会 存在 能 够 和 两 条 红 链接 

相连 的 结 点 ， 且 树 必然 是 完美 黑色 平衡 的 ， 因 为 黑 链 接 即 2.3 树 中 的 普通 链接 ， 根 据 定义 这 些 链 
接 必然 是 完美 平衡 的 。 无 论 我 们 选择 用 何 种 方式 去 定义 它们 ， 红 黑 树 都 呈 是 一 又 查找 树 ， 也 是 2.3 
树 ， 如 图 3.3.14 所 示 。 因此， 如 果 我 们 能 够 在 保持 一 一 对 应 关系 的 基础 上 实现 2.3 树 的 插入 算 法 ， 
那么 我 们 就 能 够 将 两 个 算法 的 优点 结合 起 来 。 二 又 查找 树 中 简洁 高 效 的 查找 方法 和 2.3 树 中 高 效 
的 平衡 插入 算法 。 
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图 3.3.13 ”将 红 链 接 画 平时 ， 一 棵 红 黑 树 就 是 一 棵 2-3 树 〈 另 见 彩 插 ) 


3.3.2.4 ”颜色 表示 

方便 起 见 ， 因 为 每 个 结 点 都 只 会 有 一 条 指向 自己 的 链接 ( 从 它 的 父 结 点 指向 它 ) ， 我 们 将 
链接 的 颜色 保存 在 表示 结 点 的 Node 数 据 类 型 的 布尔 变量 color 中 。 如 果 指 向 它 的 链接 是 红色 的 ， 
那么 该 变量 为 true， 黑 色 则 为 fa1se。 我 们 约定 空 链接 为 黑色 。 为 了 代码 的 清晰 我 们 定义 了 两 
个 常量 RED 和 BLACK 来 设置 和 测试 这 个 变量 。 我 们 使 用 私有 方法 isRed() 来 测试 一 个 结 点 和 
它 的 父 结 点 之 间 的 链接 的 颜色 。 当 我 们 提 到 一 个 结 点 的 颜色 时 ， 我 们 指 的 是 指向 该 结 点 的 链接 
的 颜色 ， 反 之 亦 然 。 颜 色 表 示 的 代码 实现 如 图 3.3.15 所 示 。 


h.1eft.color 和 


h.right.color 
PE a 的 值 是 BLACK 
(A 这 


private static final boolean RED = true; 
private static final boolean BLACK = false; 


红 黑 树 private class Node 
{ 


Key key; 1/ 刍 

Value val; 1/ 相关 联 的 什 

Node left，right; // 左右 于 树 

int N; 1/ 这 哥 子 树 中 的 结 点 总 煞 
boolean color; /1/ 由 其 父 结 点 指向 它 的 链接 的 颜色 





Node(Key key, Value val, int N, boolean color) 


将 红 链 接 画 平 全 《 二 - 
一 人 人 ie = 
RR fa 到 
} this.color = color; 


} 





2-3 树 内 
Wm private boolean isRed(Node x) 
ER if (x 一 nu11) return false; 
return x.color == RED; 
(WM (QR (a C5 XO a 


图 3.3.14” 红 黑 树 和 2-3 树 的 一 一 对 应 关系 ( 另 见 彩 插 ) ”图 3.3.15 红 黑 树 的 结 点 表示 ( 另 见 彩 插 ) 


3.3.2.5 旋转 

在 我 们 实现 的 某 些 操作 中 可 能 会 出 现 红色 右 链接 或 者 两 条 连续 的 红 链 接 ， 但 在 操作 完成 前 这 些 
情况 都 会 被 小 心地 旋转 并 修复 。 旋 转 操作 会 改变 红 链 接 的 指向 。 首 先 ， 假 设 我 们 有 一 条 红色 的 右 链 
接 需要 被 转化 为 左 链 接 ( 请 见 图 3.3.16 ) 。 这 个 操作 叫做 左旋 转 ， 它 对 应 的 方法 接受 一 条 指向 红 黑 
树 中 的 某 个 结 点 的 链接 作为 参数 。 假 设 被 指向 的 结 点 的 右 链接 是 红色 的 ， 这 个 方法 会 对 树 进 行 必要 
的 调整 并 返回 一 个 指向 包含 同一 组 键 的 子 树 且 其 左 链接 为 红色 的 根 结 点 的 链接 。 如 果 你 对 照 图 示 中 
调整 前 后 的 情况 逐 行 阅读 这 段 代 码 ， 你 会 发 现 这 个 操作 很 容易 理解 : 我 们 只 是 将 用 两 个 键 中 的 较 小 
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者 作为 根 结 点 变 为 将 较 大 者 作为 根 结 点 。 实 现 将 一 个 红色 左 链接 转换 为 一 个 红色 右 链接 的 一 个 右 放 
转 的 代码 完全 相同 ， 只 需要 将 1eft 换 成 right 即 可 ( 如 图 3.3.17 所 示 ) 。 
3.3.2.6 ”在 旋转 后 重 置 父 结 点 的 链接 

无 论 左 旋转 还 是 右 旋转 ， 旋 转 操作 都 会 返回 一 条 链接 。 我 们 总 是 会 用 rotateRight() 或 
rotateLeft() 的 返回 值 重 置 父 结 点 ( 或 是 根 结 点 ) 中 相应 的 链接 。 返 回 的 链接 可 能 是 左 链接 也 
可 能 是 右 链接 ， 但 是 我 们 总 会 将 它 赋 予 父 结 点 中 的 链接 。 这 个 链接 可 能 是 红色 也 可 能 是 黑色 一 一 
rotateLeft() 和 rotateRight() 都 通过 将 x.color 设 为 h.color 保留 它 原来 的 颜色 。 这 可 
能 会 产生 两 条 连续 的 红 链 接 ， 但 我 们 的 算法 会 继续 用 旋转 操作 修正 这 种 情况 。 例 如 ， 代 码 h = 
rotateLeft(h) ; 将 旋转 结 点 h 的 红色 右 链接 ， 使 得 h 指向 了 旋转 后 的 子 树 的 根 结 点 ( 组 成 该 子 树 
中 的 所 有 键 和 旋转 前 相同 ， 只 是 根 结 点 发 生 了 变化 ) 。 这 种 简洁 的 代码 是 我 们 使 用 递归 实现 二 又 查 
找 树 的 各 种 方法 的 主要 原因 。 你 会 看 到 ， 它 使 得 旋转 操作 成 为 了 普通 插入 操作 的 一 个 简单 补充 。 





a 可 能 是 左 链接 也 可 能 是 
可 红 可 
nh 有 链接 颜色 可 红 可 黑 oh 
小 于 E ‘(Fs 
介 FE 介 于 E 
和 5 之 间 ) | 大 于 5S 小 于 E ) | 和 S 之 间 
Node rotateLeft(Node h) Node rotateRight(Node h) 
{ 
Node x = h.right; Node x = h.left; 
h.right = x.left; 
x.left = hi 
x.color = h.color; 
h.color = RED; 
XN = h.N; 
h.N = 1 + size(h.left) 
+ Size(h.right); + size(h.right); 
return x; return xi 
Pa *、 
“ie eg 
ze (KFs 小 fE ) ,但 了 
小 于 E ) [和 S 之 间 和 5S 之 间 | 大 于 5S 
图 3.3.16 左旋 转 h 的 右 链接 ( 另 见 彩 插 ) 图 3.3.17 右 旋转 h 的 左 链接 〈 另 见 彩 插 ) 


在 插入 新 的 键 时 我 们 可 以 使 用 旋转 操作 帮助 我 们 保证 2-3 树 和 红 黑 树 之 间 的 一 一 对 应 关系 ， 因 为 旋 
转 操作 可 以 保持 红 黑 树 的 两 个 重要 性 质 : 有 序 性 和 完美 平衡 性 。 也 就 是 说 ， 我 们 在 红 黑 树 中 进行 旋转 时 
无 需 为 树 的 有 序 性 或 者 完美 平衡 性 担心 。 下 面 我 们 来 看 看 应 该 如 何 使 用 旋转 操作 来 保持 红 黑 树 的 另外 两 
个 重要 性 质 ( 不 存在 两 条 连续 的 红 链 接 和 不 存在 红色 的 右 链接 ) 。 我 们 先 用 -一些 简单 的 情况 热 热身 。 
3.3.2.7 ”向 2- 结 点 中 插入 新 键 

一 棵 只 含有 一 个 键 的 红 黑 树 只 含有 一 个 2- 结 点 。 插 入 另 一 个 键 之 后 ， 我 们 马上 就 需要 将 它们 
旋转 。 如 果 新 键 小 于 老 键 ， 我 们 只 需要 新 增 一 个 红色 的 结 点 即 可 ， 新 的 红 黑 树 和 单个 3- 结 点 完全 等 
价 。 如 果 新 键 大 于 老 键 ， 那 么 新 增 的 红色 结 点 将 会 产生 一 条 红色 的 右 链接 。 我 们 需要 使 用 root = 
rotateLeft(root); 来 将 其 旋转 为 红色 左 链接 并 修正 根 结 点 的 链接 ， 插 人 操作 才 算 完成 。 两 种 情 
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况 的 结果 均 为 一 棵 和 单个 3- 结 点 等 价 的 红 黑 树 , 其 中 含有 两 个 键 , 一 条 红 链 接 , 树 的 黑 链接 高 度 为 1， 
如 图 3.3.18 所 示 。 
3.3.2.8 向 树 底部 的 2- 结 点 插入 新 键 

用 和 二 叉 查找 树 相同 的 方式 向 一 棵 红 黑 树 中 插入 一 个 新 键 会 在 树 的 底部 新 增 一 个 结 点 ( 为 了 保 
证 有 序 性 ) ， 但 总 是 用 红 链 接 将 新 结 点 和 它 的 父 结 点 相连 。 如 果 它 的 父 结 点 是 一 个 2- 结 点 ， 那 么 
刚才 讨论 的 两 种 处 理 方法 仍然 适用 。 如 果 指 向 新 结 点 的 是 父 结 点 的 左 链接 ， 那 么 父 结 点 就 直接 成 为 
了 一 个 3- 结 点 ; 如 果 指 向 新 结 点 的 是 父 结 点 的 右 链接 ， 这 就 是 一 个 错误 的 3- 结 点 ， 但 一 次 左旋 转 
就 能 够 修正 它 ， 如 图 3.3.19 所 示 。 


向 左 揪 入 _ 根 结 点 
~、 查找 结束 
于 该 空 链接 
一 根 结 点 插入 C 
凤 指向 含有 a 的 © 
(人 、、 新 结 点 的 红 链 QR 及 
接 将 这 个 2- 结 点 7 QR 
变 为 一 个 3- 结 点 在 
ee 根 结 点 出 现 红色 右 链接 ， 
信 一 查找 结束 进行 左旋 转 
于 该 室 链 接 | 
用 红 链 接 和 AX 8 
岂 点 相连 le) 
二 根 结 点 但 
左旋 转 得 到 一 RR 
人 “个 正常 的 3- 结 点 从 ”内 
图 3.3.18 ”向 单个 2- 结 点 中 插入 一 个 新 键 图 3.3.19 向 树 底部 的 2- 结 点 插入 一 个 新 键 
( 另 见 彩 插 ) ( 另 见 彩 插 ) 


3.3.2.9 ”向 一 棵 双 键 树 ( 即 一 个 3- 结 点 ) 中 插入 新 键 
这 种 情况 又 可 分 为 三 种 子 情况 : 新 键 小 于 树 中 的 两 个 键 ,在 两 者 之 间 , 或 是 大 于 树 中 的 两 个 键 。 
每 种 情况 中 都 会 产生 一 个 同时 连接 到 两 条 红 链 接 的 结 点 ， 而 我 们 的 目标 就 是 修正 这 一 点 。 
口 三 者 中 最 简单 的 情况 是 新 键 大 于 原 树 中 的 两 个 键 ， 因 此 它 被 连接 到 3- 结 点 的 右 链 接 。 此 时 
树 是 平衡 的 ， 根 结 点 为 中 间 大 小 的 键 ， 它 有 两 条 红 链接 分 别 和 较 小 和 较 大 的 结 点 相连 。 如 果 
我 们 将 两 条 链接 的 颜色 都 由 红 变 黑 ， 那 么 我 们 就 得 到 了 一 棵 由 三 个 结 点 组 成 、 高 为 2 的 平衡 
树 。 它 正好 能 够 对 应 一 棵 2-3 树 , 如 图 3.3.20 ( 左 ) 。 其 他 两 种 情况 最 终 也 会 转化 为 这 种 情况 。 











435 口 如 果 新 键 小 于 原 树 中 的 两 个 键 ， 它 会 被 连接 到 最 左边 的 空 链接 ， 这 样 就 产生 了 两 条 连续 的 红 





链接 ， 如 图 3.3.20 ( 中 ) 。 此 时 我 们 只 需要 将 上 层 的 红 链 接 右 旋转 即 可 得 到 第 一 种 情况 ( 中 
值 键 为 根 结 点 并 和 其 他 两 个 结 点 用 红 链 接 相连 ) 。 

口 如 果 新 键 介 于 原 树 中 的 两 个 键 之 间 ， 这 又 会 产生 两 条 连续 的 红 链 接 ， 一 条 红色 左 链 接 接 一 条 
红色 右 链接 ， 如 图 3.3.20 ( 右 ) 。 此 时 我 们 只 需要 将 下 层 的 红 链 接 左 旋转 即 可 得 到 第 二 种 情 
况 ( 两 条 连续 的 红色 左 链接 ) 。 
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总 的 来 说 ， 我 们 通过 0 次 、1 次 和 2 次 旋转 以 及 颜色 的 变化 得 到 了 期 望 的 结果 。 在 2-3 树 中 ， 
请 确认 你 完全 理解 了 这 些 转换 ， 它 们 是 红 黑 树 的 动态 变化 的 关键 。 


新 键 最 大 新 键 最 小 新 键 介 于 两 者 之 间 
[人 查找 结束 G <， 
@ 了 “一 于 该 空 链接 (6 束 
人 查找 结束 一 3 
于 该 空 链接 
用 红 链 接 和 用 红 链 接 和 
由 一 新 结 点 相连 Ac 
Ql a a ~、、 用 红 链 接 和 
新 结 点 相连 
SG 
[一 时 半 局 守 为 全 旋转 后 变 为 红色 左 链接 
将 链接 颜 (af Yo 
Ca (6 类 转 后 杰 为 
ee 红色 链接 
(6 怪 钱 楼 | 


他 


< 色 变 为 黑 
一 将 链接 闫 
RR 


图 3.3.20 向 一 棵 双 键 树 ( 即 一 个 3- 结 点 ) 中 插入 一 个 新 键 的 三 种 情况 ( 另 见 彩 插 ) 
3.3.2.10 ”颜色 转换 


如 图 3.3.21 所 示 ， 我 们 专门 用 一 个 方法 flipCo- h、| -一 可 能 是 左 链接 ， 
1ors 0 来 转换 一 个 结 点 的 两 个 红色 子 结 点 的 颜色 。 除 入 也 可 能 是 右 链接 
了 将 子 结 点 的 颜色 由 红 变 黑 之 外 ， 我 们 同时 还 要 将 父 
结 点 的 颜色 由 黑 变 红 。 这 项 操作 最 重要 的 性 质 在 于 它 


和 旋转 操作 一 样 是 局 部 变换 ， 不 会 影响 整 柠 树 的 黑色 
平衡 性 。 根 据 这 一 点 ， 我 们 马上 能 够 在 下 面 完整 地 实 





介 于 A 介 于 E 
小 于 A ) | 和 E 之 间 ) | 和 S 之 间 ) | 大 于 S 


现 红 黑 树 。 void flipColors(Node h) 
3.3.2.11 ” 根 结 点 总 是 黑色 h.color = RED; 
在 3.3.29 所 述 的 情况 中 ， 颜 色 转 换 会 使 根 结 点 变 he oh ennor ”BORE 
为 红色 。 这 也 可 能 出 现在 很 大 的 红 黑 树 中 。 严 格 地 说 ， 1 A 
红色 的 根 结 点 说 明 根 结 点 是 一 个 3- 结 点 的 一 部 分 ,但 -一 结 点 和 父 结 点 相连 






实际 情况 并 不 是 这 样 。 因 此 我 们 在 每 次 插入 后 都 会 将 
根 结 点 设 为 黑色 。 注 意 ， 每 当 根 结 点 由 红 变 黑 时 树 的 
黑 链接 高 度 就 会 加 1。 
3.3.2.12 ”向 树 底部 的 3- 结 点 插入 新 键 小 TA (次 玫 (六 络 )( 大 于 S 
现在 假设 我 们 需要 在 树 的 底部 的 一 个 3- 结 点 下 加 

人 一 个 新 结 点 。 前 面 讨论 过 的 三 种 情况 都 会 出 现 ， 如 图 3321 分 能 4 竺 点 的 加 中 转换 链接 的 
图 3.3.22 所 示 。 指 向 新 结 点 的 链接 可 能 是 3- 结 点 的 右 

链接 ( 此 时 我 们 只 需要 转换 颜色 即 可 ) ， 或 是 左 链接 ( 此 时 我 们 需要 进行 右 施 转 然 后 再 转换 颜色 ) ， 
或 是 中 链接 (此 时 我 们 需要 先 左旋 转 下 层 链接 然后 右 旋转 上 层 链接 ， 最 后 再 转换 颜色 ) 。 颜色 转换 





强生 和 


-~ 结 点 
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会 使 到 中 结 点 的 链接 变 红 ， 相 当 于 将 它 送 人 了 父 结 ”插入 H 
点 。 这 意味 着 在 父 结 点 中 继续 插 人 一 个 新 键 ， 我 们 

也 会 继续 用 相同 的 办 法 解决 这 个 问题 。 

3.3.2.13 ”将 红 链 接 在 树 中 向 上 传递 





2.3 树 中 的 插入 算法 需要 我 们 分 解 3- 结 点 ， ea nm 
将 中 间 键 插入 父 结 点 ， 如 此 这 般 直 到 过 到 一 个 2- 人 
结 点 或 是 根 结 点 。 我 们 所 考虑 过 的 所 有 情况 都 正 ©、| 
是 为 了 达成 这 个 目标 ; 每 次 必要 的 旋转 之 后 我 们 @ 及 
都 会 进行 颜色 转换 ， 这 使 得 中 结 点 变 红 。 在 父 结 从 a 
点 看 来 ， 处 理 这 样 一 个 红色 结 点 的 方式 和 处 理 一 i 
个 新 插入 的 红色 结 点 完全 相同 ， 即 继续 把 红 链接 需要 进行 颜色 转换 
转移 到 中 结 点 上 去 。 图 3.3.23 中 总 结 的 三 种 情况 © | 
显示 了 在 红 黑 树 中 实现 2-3 树 的 插入 算法 的 关键 a fs 
操作 所 需 的 步 又: 要 在 一 个 3- 结 点 下 插入 新 键 ， 
先 创建 一 个 临时 的 4- 结 点 ， 将 其 分 解 并 将 红 链接 人 


由 中 间 键 传递 给 它 的 父 结 点 。 重 复 这 个 过 程 ， 我 
们 就 能 将 红 链接 在 树 中 向 上 传递 , 直至 遇 到 一 个 2- 
结 点 或 者 根 结 点 。 af 0f 

总 之 ， 只 要 谨慎 地 使 用 左旋 转 、 右 旋转 和 颜 
色 转换 这 三 种 简单 的 操作 ， 我 们 就 能 够 保证 插入 Q\ 
操作 后 红 黑 树 和 2-3 树 的 一 一 对 应 关系 。 在 沿 着 fp 六 
插入 点 到 根 结 点 的 路 径 向 上 移动 时 在 所 经 过 的 每 CR 





个 结 点 中 顺序 完成 以 下 操作 ， 我 们 就 能 完成 插入 
操作 : 图 3.3.22 向 树 底部 的 3- 结 点 插入 一 个 新 键 ( 另 
口 如 果 右 子 结 点 是 红色 的 而 左 子 结 点 是 黑色 见 彩 插 ) 
的 ， 进 行 左旋 转 ; 


口 如 果 左 子 结 点 是 红色 的 且 它 的 左 子 结 点 也 是 红色 的 ， 进 行 右 旋转 ; 
口 如 果 左 右 子 结 点 均 为 红色 ， 进 行 颇 色 转换 。 
你 应 该 花 点 时 间 确 认 以 上 步骤 处 理 了 前 文 描 
述 的 所 有 情况 。 请 注意 , 第 一 个 操作 表示 将 一 个 2- 
结 点 变 为 一 个 3- 结 点 和 插入 的 新 结 点 与 树 底部 的 
3- 结 点 通过 它 的 中 链接 相连 的 两 种 情况 。 


as 4 3.3.3 实现 
因为 保持 树 的 平衡 性 所 和 需 的 操作 是 由 下 向 上 


NG 在 每 个 所 经 过 的 结 点 中 进行 的 ， 将 它们 植 和 我 们 
颜色 转换 。 已 有 的 实现 中 十 分 简单 : 只 需要 在 递归 调用 之 后 

Ve 完成 这 些 操作 即 可 ， 如 算法 3.4 所 示 。 上 一 段 中 

列 出 的 三 种 操作 都 可 以 通过 一 个 检测 两 个 结 点 的 


图 3.3.23 中 红 链 接 向 上 传递 ( 另 见 彩 插 ) 。 颜色 的 话语 句 完成 。 尽管 实现 所 需 的 代码 量 很 小 , 
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但 如 果 没有 我 们 学 习 过 的 两 种 抽象 数据 结构 ( 2-3 树 和 红 黑 树 ) 作为 铺垫 ， 这 段 实现 仍然 会 非常 难 
以 理解 。 在 检查 了 三 到 五 个 结 点 的 颜色 之 后 ( 也 许 还 需要 进行 一 两 次 旋转 以 及 颜色 转换 ) ， 我 们 就 
可 以 得 到 一 棵 近乎 完美 平衡 的 二 叉 查 找 树 。 
图 3.3.24 给 出 了 使 用 我 们 的 标准 索引 测试 用 例 进行 测试 的 轨迹 和 用 同一 组 键 按照 升序 构造 一 棵 
红 黑 树 的 测试 轨迹 。 仅 从 红 黑 树 的 三 种 标准 操作 的 角度 分 析 这 些 例子 对 我 们 理解 问题 很 有 帮助 ， 之 
前 我 们 也 是 这 样 做 的 。 另 一 个 基本 练习 是 检查 它们 和 2-3 树 的 一 一 对 应 关系 ( 可 以 对 比 图 3.3.10 中 
由 同一 组 键 构造 的 2-3 树 ) 。 在 两 种 情况 中 你 都 能 通过 思考 将 P 插入 红 黑 树 所 需 的 转换 来 检验 你 对 各 
算法 的 理解 程度 请 见 练习 3.3.12 ) 。 438 

















算法 3.4” 红 黑 树 的 插入 算法 


public class RedBlackBST<Key extends Comparable<Key>, Value> 
{ 





private Node root; 
private class Node // 含有 color 变 量 的 Node 对 象 ( 请 见 3.3.2.4 节 ) 


private boolean isRed(Node h) // 请 见 33.2.4 节 
private Node rotateLeft(Node h) // 请 见 图 33.16 
Node rotateRight(Node h) // 请 见 图 33.17 
void 人 ipColors(Node h) // 请 见 图 3.3.21 


private int size() // 请 见 算 法 3.3 






public void put(Key key, Value val) 

{ // 查找 key， 找 到 则 更 新 其 值 ， 否 则 为 它 新 建 一 个 结 点 
root = put(root, key, val); 
root .color = BLACK; 

} 


private Node put(Node h, Key key, Value val) 
{ 


放 《h == nu11) // 标准 的 插入 操作 ， 和 父 结 点 用 红 刍 接 相连 
return new Node(key, val, 1, RED); 
int cmp = key.compareToCh.key); 
if (cmp < 0) h.left = put(h.left, key, val); 
else if (cmp > 0) h.right = put(h.right, key, val); 
else h.val = val; 
if CisRedCh.right) && !isRedCh.left))  h = rotateLeft(h); 
if (isRed(h.1eft) && isRed(h.1eft.left)) h = rotateRightCh); 
if CisRedCh.left) && isRedCh.right)) ~ flipColorsCh); 
h.N = sizeCh. left) + sizeCh.right) + 1; 
return h; 
} 
} 


除了 递归 调用 后 的 三 条 i 语句 , 红 黑 树 中 put() 的 递归 实现 和 二 叉 查 找 树 中 put() 的 实现 完全 相同 。 
它们 在 查找 路 径 上 保证 了 红 黑 树 和 2-3 树 的 一 一 对 应 关系 ， 使 得 树 的 平衡 性 接近 完美 。 第 一 条 if 语句 会 
将 任意 含有 红色 右 链接 的 3- 结 点 (或 临时 的 4- 结 点 ) 向 左旋 转 ; 第 二 条 if 语句 会 将 临时 的 4- 结 点 中 两 
条 连续 红 链接 中 的 上 层 链接 向 右 旋 转 ; 第 三 条 if 语句 会 进行 颜色 转换 并 将 红 链接 在 树 中 向 上 传递 ( 详情 
请 见 正文 ) 。 439| 
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标准 索引 测试 用 例 用 同一 组 键 按照 升序 插入 来 构造 一 棵 红 黑 树 
图 3.3.24 红 黑 树 的 构造 轨迹 〈 另 见 彩 插 ) 


3.3.4 删除 操作 

算法 3.4 中 的 put() 方法 是 本 书 中 最 复杂 的 实现 之 一 ， 而 红 黑 树 的 deleteMin()、delete- 
Max() 和 delete() 的 实现 更 麻烦 ， 我 们 将 它们 的 完整 实现 留 做 练习 ， 但 这 里 仍然 需要 学 习 它们 的 
基本 原理 。 要 描述 删除 算法 ， 首 先 我 们 要 回 到 2-3 树 。 和 插入 操作 一 样 ， 我 们 也 可 以 定义 一 系列 局 
部 变换 来 在 删除 一 个 结 点 的 同时 保持 树 的 完美 平衡 性 。 这 个 过 程 比 插入 一 个 结 点 更 加 复杂 ， 因 为 我 
们 不 仅 要 在 (为 了 删除 一 个 结 点 而 ) 构造 临时 4- 结 点 时 沿 着 查找 路 径 向 下 进行 变换 ， 还 要 在 分 解 
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遗留 的 4- 结 点 时 沿 着 查找 路 径 向 上 进行 变换 ( 同 插入 操作 ) 。 
3.3.4.1 自 项 向 下 的 2-3-4 树 

作为 第 一 轮 热 身 ， 我 们 先 学 习 一 个 沿 查找 路 径 既 能 向 上 也 能 在 根 结 点 
向 下 进行 变换 的 稍 简单 的 算法 : 2-3-4 树 的 插入 算法 ，2-3-4 树 中 Can i 
允许 存在 我 们 以 前 见 过 的 4- 结 点 。 它 的 插入 算法 沿 查找 路 径 向 下 
进行 变换 是 为 了 保证 当前 结 点 不 是 4- 结 点 这 样 树 底 才 有 空间 来 
插入 新 的 键 ) ， 沿 查找 路 径 向 上 进行 变换 是 为 了 将 之 前 创建 的 4- = 一 
结 点 配 平 , 如 图 3.3.25 所 示 。 向 下 的 变换 和 我 们 在 2.3 树 中 分 解 4- 
结 点 所 进行 的 变换 完全 相同 。 如 果 根 结 点 是 4- 结 点 ， 我 们 就 将 它 全 一 
分 解 成 三 个 2- 结 点 ， 使 得 树 高 加 1。 在 向 下 查找 的 过 程 中 ， 如 果 
过 到 一 个 父 结 点 为 2- 结 点 的 4- 结 点 ,我们 将 4- 结 点 分 解 为 两 个 2- ~ 一 
结 点 并 将 中 间 键 传递 给 它 的 父 结 点 ,使 得 父 结 点 变 为 一 个 3- 结 点 ; 

念 - 

4- 结 点 ; 我 们 不 必 担心 会 遇 到 父 结 点 为 4- 结 点 的 4- 结 点 ， 因 为 人 3 
插入 算法 本 身 就 保证 了 这 种 情况 不 会 出 现 。 到 达 树 的 底部 之 后 ， 


如 果 过 到 一 个 父 结 点 为 3- 结 点 的 4- 结 点 ,我 们 将 4- 结 点 分 解 为 
我 们 也 只 会 遇 到 2- 结 点 或 者 3- 结 点 , 所 以 我 们 可 以 插入 新 的 键 。 在 树 底 


在 沿 查找 路 径 向 下 的 过 程 中 


两 个 2- 结 点 并 将 中 间 键 传递 给 它 的 父 结 点 ， 使 得 父 结 点 变 为 一 个 





要 用 红 黑 树 实现 这 个 算法 ， 我 们 需要 : A 
口 将 4- 结 点 表示 为 由 三 个 2- 结 点 组 成 的 一 棵 平衡 的 子 树 ， 
根 结 点 和 两 个 子 结 点 都 用 红 链接 相连 ; RT 
口 在 向 下 的 过 程 中 分 解 所 有 4- 结 点 并 进行 颜色 转换 ; 图 3.3.25 ” 自 顶 向 下 的 2-3-4 树 
口 和 插入 操作 一 样 ,在 向 上 的 过 程 中 用 施 转 将 4- 结 点 配 平 ?。 的 插入 算法 中 的 变换 。 [21 











令 人 惊讶 的 是 ， 你 只 需要 移动 算法 3.4 的 put 0 方法 中 的 一 行 代码 就 能 实现 2-3-4 树 中 的 插入 
操作 : 将 colorF1ipQ 语句 ( 及 其 if 语句 ) 移动 到 递归 调用 之 前 ( nu11 测试 和 比较 操作 之 间 ) 。 
在 多 个 进程 可 以 同时 访问 同一 棵 树 的 应 用 中 这 个 算法 优 于 2-3 树 ， 因 为 它 操作 的 总 是 当前 结 点 的 一 
个 或 两 个 链接 。 我 们 下 面 要 讲 的 删除 算法 和 它 的 插入 算法 类 似 ， 而 且 也 适用 于 2-3 树 。 
3.3.4.2 ”删除 最 小 键 

在 第 二 轮 热身 中 我 们 要 学 习 2-3 树 中 删除 最 小 键 的 操作 。 我 们 注意 到 从 树 底部 的 3- 结 点 中 删除 
键 是 很 简单 的 ， 但 2- 结 点 则 不 然 。 从 2- 结 点 中 删除 一 个 键 会 留 下 一 个 空 结 点 ， 一 般 我 们 会 将 它 蔡 
换 为 一 个 空 链接 ， 但 这 样 会 破坏 树 的 完美 平衡 性 。 所 以 我 们 需要 这 样 做 : 为 了 保证 我 们 不 会 删除 一 
个 2- 结 点 ， 我 们 沿 着 左 链接 向 下 进行 变换 ， 确 保 当前 结 点 不 是 2- 结 点 ( 可 能 是 3- 结 点 ， 也 可 能 是 
临时 的 4- 结 点 ) 。 首 先 ， 根 结 点 可 能 有 两 种 情况 。 如 果 根 是 2- 结 点 且 它 的 两 个 子 结 点 都 是 2- 结 点 ， 
我 们 可 以 直接 将 这 三 个 结 点 变 成 一 个 4- 结 点 ; 否则 我 们 需要 保证 根 结 点 的 左 子 结 点 不 是 2- 结 点 ， 
如 有 必要 可 以 从 它 右 侧 的 兄弟 结 点 “ 借 ” 一 个 键 来 。 以 上 情况 如 图 3.3.26 所 示 。 在 沿 着 左 链接 向 下 
的 过 程 中 ， 保 证 以 下 情况 之 一 成 立 : 

口 如 果 当 前 结 点 的 左 子 结 点 不 是 2- 结 点 ， 完 成 ; 

口 如 果 当 前 结 点 的 左 子 结 点 是 2- 结 点 而 它 的 亲 兄弟 结 点 不 是 2- 结 点 ， 将 左 子 结 点 的 兄弟 结 点 

中 的 一 个 键 移动 到 左 子 结 点 中 ; 


外 因为 4- 结 点 可 以 存在 ， 所 以 可 以 允许 一 个 结 点 同时 连接 到 两 条 链接 。 一 一 译 者 注 
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口 如 果 当 前 结 点 的 左 子 结 点 和 它 的 亲 兄 弟 结 点 都 。 “在 根 结 点 


是 2- 结 点 ,将 左 子 结 点 、 父 结 点 中 的 最 小 键 Q 
和 左 子 结 点 最 近 的 兄弟 结 点 合并 为 一 个 4- 结 gf 间 一 
点 ， 使 父 结 点 由 3- 结 点 变 为 2- 结 点 或 者 由 4- 
结 点 变 为 3- 结 点 。 © © 
在 遍历 的 过 程 中 执行 这 个 过 程 ， 最 后 能 够 得 到 一 局 Ed 一 Go 0TD 
个 含有 最 小 键 的 3- 结 点 或 者 4- 结 点 ， 然 后 我 们 就 可 
以 直接 从 中 将 其 删除 ， 将 3- 结 点 变 为 2- 结 点 ， 或 者 在 沿 左 链接 向 下 的 过 程 中 
将 4- 结 点 变 为 3- 结 点 。 然 后 我 们 再 回头 向 上 分 解 所 
有 临时 的 4- 结 点 。 Gf (Ed Gp) dd 
3.3.4.3 ”删除 操作 
在 查找 路 径 上 进行 和 删除 最 小 键 相同 的 变换 同样 CoO _ CD 
可 以 保证 在 查找 过 程 中 任意 当前 结 点 均 不 是 2- 结 点 。 ” GY 多 ey 
如 果 被 查找 的 键 在 树 的 底部 ， 我 们 可 以 直接 删除 它 。 
如 果 不 在 ， 我 们 需要 将 它 和 它 的 后 继 结 点 交换 ， 就 和 在 树 底 
-又 查找 树 一 样 。 因 为 当前 结 点 必然 不 是 2- 结 点 ， 问 一 


题 已 经 转化 为 在 一 棵 根 结 点 不 是 2- 结 点 的 子 树 中 删除 

最 小 的 键 ， 我 们 可 以 在 这 棵 子 树 中 使 用 前 文 所 述 的 算 图 3.3.26 ”删除 最 小 键 操作 中 的 变换 
法 。 和 以 前 一 样 ， 删 除 之 后 我 们 需要 向 上 回溯 并 分 解 

余下 的 4- 结 点 。 

本 节 末尾 的 练习 中 有 几 道 是 关于 这 些 删 除 算法 的 例子 和 实现 的 。 有 兴趣 理解 或 实现 删除 算法 的 
读者 应 该 掌握 这 些 练习 中 的 细节 。 对 算法 研究 感 兴趣 的 读者 应 该 认识 到 这 些 方法 的 重要 性 ， 因 为 这 
是 我 们 见 过 的 第 一 种 能 够 同时 实现 高 效 的 查找 、 插 入 和 删除 操作 的 符号 表 实现 。 下 面 我 们 将 会 验证 
这 一 点 。 


3.3.5” 红 黑 树 的 性 质 

研究 红 黑 树 的 性 质 就 是 要 检查 对 应 的 2-3 树 并 对 相应 的 2-3 树 进行 分 析 的 过 程 。 我 们 的 最 终结 
论 是 所 有 基于 红 黑 树 的 符号 表 实现 都 能 保证 操作 的 运行 时 间 为 对 数 级 别 (范围 查找 除外 ， 它 所 需 的 
额外 时 间 和 返回 的 键 的 数量 成 正比 ) 。 我 们 重复 并 强调 这 一 点 是 因为 它 十 分 重要 。 
3.3.5.1 性 能 分 析 

首先 ， 无 论 键 的 插 人 顺序 如 何 ， 红 黑 树 都 几乎 是 完美 平衡 的 (请 见 图 3.3.27) 。 这 从 它 和 2-3 
树 的 一 一 对 应 关系 以 及 2-3 树 的 重要 性 质 可 以 得 到 。 


命题 G。 一 棵 大 小 为 NN 的 红 黑 树 的 高 度 不 会 超过 21gN。 


简略 的 证 明 。 红 黑 树 的 最 坏 情况 是 它 所 对 应 的 2-3 树 中 构成 最 左边 的 路 径 结 点 全 部 都 是 3- 结 点 
而 其 余 均 为 2- 结 点 。 最 左边 的 路 径 长 度 是 只 包含 2- 结 点 的 路 径 长 度 ( ~ lgN) 的 两 倍 。 要 按照 
某 种 顺序 构造 一 棵 平均 路 径 长 度 为 2IBN 的 最 差 红 黑 树 虽然 可 能 ， 但 并 不 容易 。 如 果 你 喜欢 数学 ， 
你 也 许 会 喜欢 在 练习 3.3.24 中 探究 这 个 问题 的 答案 。 
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这 个 上 界 是 比较 保守 的 。 使 用 随机 的 键 序列 和 典型 应 用 中 常见 的 键 序列 进行 的 实验 都 证 明 ， 在 
一 棵 大 小 为 N 的 红 黑 树 中 一 次 查找 所 需 的 比较 次 数 约 为 ( 1.00lgN-0.5 ) 。 另 外 ， 在 实际 情况 下 你 不 
太 可 能 遇 到 比 这 个 数字 高 得 多 的 平均 比较 次 数 ， 如 表 3.3.1 所 示 。 


图 3.3.27 ”使 用 随机 键 构造 的 典型 红 黑 树 ， 没 有 画 出 空 链接 ( 另 见 彩 插 ) 














表 3.3.1 使 用 RedBlackBST 的 FrequencyCounter 的 每 次 put() 操作 平均 所 需 的 比较 次 数 


























leipzig1M.txt 
比较 次 数 
单词 数 | 不 同 单词 数 | 单词 数 | 不 同 单词 数 | 
模型 预测 | 实际 次 数 
所 有 单词 135 635 4 3. 21191455 | 534 580 19.4 19.1 
T 等 8 的 | 14350 | NM 4239 597 | 299 593 18.7 18.4 
的 TF 第 所 作 1610829 | 165555 17.5 173 











命题 H。 一 棵 大 小 为 N 的 红 黑 树 中 ， 根 结 点 到 任意 结 点 的 平均 路 径 长 度 为 ~ 1.00lgN。 


例证 。 和 典型 的 二 又 查找 树 (例如 表 3.2.1 中 所 示 的 树 ) 相 比 ， 一 棵 典型 的 红 黑 树 的 平衡 性 是 
很 好 的 ， 例 如 图 3.3.27 所 示 ( 甚至 是 图 3.3.28 中 由 升序 键 列 构造 的 红 黑 树 ) 。 表 3.3.1 显示 的 
数据 表明 FrequencyCounter 在 运行 中 构造 的 红 黑 树 的 路 径 长 度 ( 即 查找 成 本 ) 比 初等 二 又 


查找 树 低 40% 左右 ， 和 预期 相符 。 自 红 黑 树 的 发 明 以 来 ,无 数 的 实验 和 实际 应 用 都 印证 了 这 
种 性 能 改进 。 


以 使 用 FrequencyCounter 在 处 理 长 度 大 于 等 于 8 的 单词 时 put0) 操作 的 成 本 为 例 ， 我 们 可 
以 看 到 平均 成 本 降低 得 更 多 ( 如 图 3.3.29 所 示 ) 。 这 又 一 次 验证 了 理论 模型 所 预测 的 对 数 级 别 的 运 
行 时 间 ， 只 不 过 这 次 的 惊喜 比 二 叉 查 找 树 的 小 ， 因 为 性 质 G 已 经 向 我 们 保证 了 这 一 点 。 节 约 的 总 成 
本 低 于 在 查找 上 节约 的 40% 的 成 本 ， 因 为 除了 比较 我 们 也 统计 了 旋转 和 颜色 变换 的 次 数 。 
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图 3.3.28 ”使 用 升序 键 列 构造 的 一 棵 红 黑 树 ， 没 有 画 出 空 链接 ( 另 见 彩 插 ) 


20 





i 1 
0 操作 14350 
图 3.3.29 使 用 RedBlackBST， 运 行 java FrequencyCounter 8 < tale.txt 的 成 本 


红 黑 树 的 get() 方法 不 会 检查 结 点 的 颜色 ， 因 此 平衡 性 相关 的 操作 不 会 产生 任何 负担 ; 因为 树 
是 平衡 的 ， 所 以 查找 比 二 又 查找 树 更 快 。 每 个 键 只 会 被 插入 一 次 ， 但 却 可 能 被 查找 无 数 次 ， 因 此 最 
后 我 们 只 用 了 很 小 的 代价 ( 和 二 分 查找 不 同 ， 我 们 可 以 保证 插入 操作 是 对 数 级 别 的 ) 就 取得 了 和 最 
优 情况 近似 的 查找 时 间 ( 因为 树 是 接近 完美 平衡 的 ， 且 查找 过 程 中 不 会 进行 任何 平衡 性 的 操作 ) 。 
查找 的 内 循环 只 会 进行 一 次 比较 并 更 新 一 条 链接 ， 非 常 简短 ， 和 二 分 查找 的 内 循环 类 似 (只 有 比较 
和 索引 运算 ) 。 这 是 我 们 见 到 的 第 一 个 能 够 保证 对 数 级 别 的 查找 和 插入 操作 的 实现 ， 它 的 内 循环 更 
紧凑 。 它 通过 了 各 种 应 用 的 考验 ,包括 许多 库 实 现 。 
3.3.5.2 ”有 序 符 号 表 API 

红 黑 树 最 吸引 人 的 一 点 是 它 的 实现 中 最 复杂 的 代码 仅 限于 put()( 和 删除 ) 方法 。 二 叉 查找 树 
中 的 查找 最 大 和 最 小 键 、select()、rank()、floor()、ceiling() 和 范围 查找 方法 不 做 任何 变 
动 即 可 继续 使 用 ， 因 为 红 黑 树 也 是 二 叉 查 找 树 而 这 些 操作 也 不 会 涉及 结 点 的 颜色 。 算 法 3.4 和 这 些 
方法 (以 及 删除 方法 ) 一 起 完整 地 实现 了 我 们 的 有 序 符号 表 API。 这 些 方法 都 能 从 红 黑 树 近乎 完美 
的 平衡 性 中 受益 ， 因 为 它们 最 多 所 需 的 时 间 都 和 树 高 成 正比 。 因 此 命题 G 和 命题 E 一 起 保证 了 所 
有 操作 的 运行 时 间 是 对 数 级 别 的 。 
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命题 |。 在 一 标 红 黑 树 中 ， 以 下 操作 在 最 坏 情况 下 所 需 的 时 间 是 对 数 级 别 的 : 查找 (get() ) 、 插 
入 (putO ) 、 查 找 最 小 键 、 查 找 最 大 键 、floorO 、ceilingCO 、rankO 、selectGO 、 删 除 最 小 
键 (deleteMinO ) 、 删 除 最 大 键 (deleteMax() ) 、 删 除 ( delete() ) 和 范围 查询 (rangeQ，) ) 。 


证 明 。 我 们 已 经 讨论 过 put()、get() 和 delete( 方法 。 对 于 其 他 方法 ， 代 码 可 以 从 3.2 节 中 
昭 撤 〔 它们 不 涉及 结 点 颜色 ) 。 命 题 G 和 命题 E 可 以 保证 算法 是 对 数 级 别 的 ， 所 有 操作 在 所 经 
过 的 结 点 上 只 会 进行 常数 次 数 的 操作 也 说 明了 这 一 点 。 
各 种 符号 表 实现 的 性 能 总 结 如 表 3.3.2 所 示 。 
表 3.3.2 各 种 符号 表 实现 的 性 能 总 结 
最 坏 情况 下 的 运行 时 间 的 增长 平均 情况 下 的 运行 时 间 的 增长 








9 数量 级 〈N 次 插入 之 后 ) 数量 级 〔N 次 插入 之 后 ) 是 否 支 持 有 序 性 
算法 数据 结构 ) 相关 的 操作 
顺序 查询 (无 序 链表 ) 
二 分 查找 ( 有 序数 组 ) 
-又 树 查 找 ( BST ) 
2-3 树 查 找 ( 红 黑 树 ) 








想 想 看 ， 这 样 的 保证 是 一 个 非凡 的 成 就 。 在 信息 世界 的 汪洋 大 海中 ， 表 的 大 小 可 能 上 千 亿 ,但 
我 们 仍 能 够 确保 在 几 十 次 比较 之 内 就 完成 这 些 操作 。 447 














转 答 经 


间 为 什么 不 允许 存在 红色 右 链接 和 4- 结 点 ? 

答 ”它们 都 是 可 用 的 ， 并 且 已 经 应 用 了 几 十 年 了 。 在 练习 中 你 会 遇 到 它们 。 只 允许 红色 左 链接 的 存在 能 
够 减少 可 能 出 现 的 情况 ， 因 此 实现 所 需 的 代码 会 少 得 多 。 

间 为 什么 不 在 Node 类 型 中 使 用 一 个 Key 类 型 的 数组 来 表示 2- 结 点 、3- 结 点 和 4- 结 点 ? 

答 ” 问 得 好 。 这 正 是 我 们 在 B- 树 ( 请 见 第 6 章 ) 的 实现 中 使 用 的 方案 ， 它 的 每 个 结 点 中 可 以 保存 更 多 的 
键 。 因 为 2-3 树 中 的 结 点 较 少 ， 数 组 所 带 来 的 额外 开销 太 高 了 。 

问 在 分 解 一 个 4 结 点 时 ， 我 们 有 时 会 在 rotateRightQ 中 将 右 结 点 的 颜色 设 为 RED ( 红 ) 然后 立即 在 
f1ipColorsQ 中 将 它 的 颜色 变 为 BLACK ( 黑 ) 。 这 不 是 浪费 时 间 吗 ? 

答 是 的 ,有 时 我 们 还 会 不 必要 地 反复 改变 中 结 点 的 颜色 。 从 整体 来 看 ， 多 余 的 几 次 颜色 变换 和 将 所 有 
方法 的 运行 时 间 的 增长 数量 级 从 线性 级 别提 升 到 对 数 级 别 不 是 一 个 级 别 的 。 当 然 ， 在 有 性 能 要 求 的 
应 用 中 ， 你 可 以 将 rotateRight() 和 flipColors() 的 代码 在 所 需要 的 地 方 展 开 来 消除 那些 额外 的 
开销 。 我 们 在 删除 中 也 会 使 用 这 两 个 方法 。 在 能 够 保证 树 的 完美 平衡 的 前 提 下 ,它们 更 加 容易 使 用 、 








理解 和 维护 。 448 
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将 键 E AS Y Q UT 工 0 N 按 顺序 插入 一 棵 空 2-3 树 并 画 出 结果 。 





将 键 Y L P M X H C R A E S 按 顺序 插入 一 棵 空 2-3 树 并 画 出 结果 。 2 
使 用 什么 顺序 插入 键 5 E A C H X M 能 够 得 到 一 棵 高 度 为 1 的 2-3 树 ? BR 
证 明 含有 入 个 键 的 2.3 树 的 高 度 在 -Llog3Nj 即 0.631gN ( 树 完全 由 3- 结 dh 
点 组 成 ) 和 -LlgN」( 树 完全 由 2- 结 点 组 成 ) 之 间 。 
右 图 显示 了 N=1 到 6 之 间 大 小 为 N 的 所 有 不 同 的 2-3 树 (无 先后 次 序 ) 。 
请 画 出 N=7、8、9 和 10 的 大 小 为 N 的 所 有 不 同 的 2-3 树 。 Beam 
计算 用 X 个 随机 键 构造 练习 3.3.5 中 每 棵 2-3 树 的 概率 。 
以 图 3.3.8 为 例 为 图 中 的 其 他 5 种 情况 画 出 相应 的 示意 图 。 -全 dh 
画 出 使 用 三 个 2- 结 点 和 红 链 接 一 起 表示 一 个 4- 结 点 的 所 有 可 能 方法 (不 
一 定 只 能 使 用 红色 左 链接 ) 。 人 
下 图 中 哪些 是 红 黑 树 ( 粗 的 链接 为 红色 ) ? 
0 ©Q oO 

@ QO 


[0 Gl Gd Q (YW 
@ a @ mm 
a 站 惟 凡 mam dq 


将 含有 键 E A S Y Q UT 工 0 N 的 结 点 按 硕 序 插入 一 棵 空 红 黑 树 并 夯 出 结果 。 

将 含有 键 YL P M X H C R A E S 的 结 点 按 顺 序 插入 一 棵 空 红 黑 树 并 夯 出 结果 。 

在 我 们 的 标准 索引 测试 用 例 中 插入 键 P 并 画 出 插入 的 过 程 中 每 次 变换 ( 颜色 转换 或 是 旋转 ) 后 
的 红 黑 树 。 

真 假 判 断 : 如 果 你 按照 升序 将 键 闫 序 插入 一 棵 红 黑 树 中 ， 树 的 高 度 是 单调 递增 的 。 

用 字母 A 到 按 顺 序 构造 一 棵 红 黑 树 并 画 出 结果 ， 然 后 大 致 说 明 在 按照 升序 插入 键 来 构造 一 棵 
红 黑 树 的 过 程 中 发 生 了 什么 可 以 参考 正文 中 
的 图 例 ) 。 

在 键 按照 降序 插入 红 黑 树 的 情况 下 重新 回答 
上 面 两 道 练习 。 

向 右 图 所 示 的 红 黑 树 ( 黑色 加 粗 部 分 的 链接 为 
红色 ) 中 插入 n 并 画 出 结果 ( 图 中 只 显示 了 
插 人 时 的 查找 路 径 ， 你 的 解答 中 只 需 包含 这 些 
结 点 即 可 ) 。 

随机 生成 两 棵 均 含有 16 个 结 点 的 红 黑 树 。 画 
出 它们 (手绘 或 者 代码 绘制 均 可 ) 并 将 它们 和 
使 用 同一 组 键 构造 的 〈 非 平衡 的 ) 二 叉 查找 树 
进行 比较 。 

对 于 2 到 10 之 间 的 N， 画 出 所 有 大 小 为 的 不 同 红 黑 树 ( 请 参考 练习 3.3.5 ) 。 

每 个 结 点 只 需要 1 位 来 保存 结 点 的 颜色 即 可 表示 2- 结 点 、3- 结 点 和 4- 结 点 。 使 用 二 叉 树 ， 我 们 
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在 每 个 结 点 需要 几 位 信息 才能 表示 5- 结 点 、6- 结 点 、7- 结 点 和 8- 结 点 ? 

计算 一 棵 大 小 为 N 且 完 美 平衡 的 二 叉 查 找 树 的 内 部 路 径 长 度 ， 其 中 为 2 的 寡 减 1。 
基于 你 为 练习 3.2.10 给 出 的 答案 编写 一 个 测试 用 例 TestRB .java。 

找 出 一 组 键 的 序列 使 得 用 它 顺序 构造 的 二 叉 查 找 树 比 用 它 顺序 构造 的 红 黑 树 的 高 度 更 低 ， 或 者 
证 明 这 样 的 序列 不 存在 。 


图 提高 亚 


3.3.23 


3.3.24 


3.3.25 


3.3.26 


3.3.27 


3.3.28 


3.3.29 


3.3.30 


3.3.31 
3.3.32 


3.3.33 


没有 平衡 性 限制 的 2-3 树 。 使 用 2-3 树 ( 不 一 定 平衡 ) 作为 数据 结构 实现 符号 表 的 基本 API。 树 
中 的 3- 结 点 中 的 红 链 接 可 以 左 斜 也 可 以 右 斜 。 树 底部 的 3- 结 点 和 新 结 点 通过 黑色 链接 相连 。 实 
验 并 估计 随机 构造 的 这 样 一 棵 大 小 为 N 的 树 的 平均 路 径 长 度 。 

红 黑 树 的 最 坏 情 况 。 找 出 如 何 构造 一 棵 大 小 为 N 的 最 差 红 黑 树 ， 其 中 从 根 结 点 到 几乎 所 有 空 链 
接 的 路 径 长 度 均 为 21gN。 

自 顶 向 下 的 2-3-4 树 。 使 用 平衡 2-3-4 树 作为 数据 结构 实现 符号 表 的 基本 AP1。 在 树 的 表示 中 使 
用 红 黑 链接 并 实现 正文 所 述 的 插入 算法 ， 其 中 在 沿 查找 路 径 向 下 的 过 程 中 分 解 4- 结 点 并 进行 颜 
色 转 换 ， 在 回 湖 向 上 的 过 程 中 将 4- 结 点 配 平 。 

自 顶 向 下 一 遍 完 成 。 修 改 你 为 练习 3.3.25 给 出 的 答案 ， 不 使 用 递归 。 在 沿 查找 路 径 向 下 的 过 程 
中 分 解 并 平衡 4- 结 点 ( 以 及 3- 结 点 ) ， 最 后 在 树 底 插 人 新 键 即 可 。 

允许 红色 右 链接 。 修 改 你 为 练习 3.3.25 给 出 的 答案 ， 允 许 红色 右 链接 的 存在 。 

自 底 向 上 的 2-3-4 树 。 使 用 平衡 2-3-4 树 作为 数据 结构 实现 符号 表 的 基本 API。 在 树 的 表示 中 使 
用 红 黑 链接 并 用 和 算法 3.4 相同 的 递归 方式 实现 自 底 向 上 的 插入 。 你 的 插入 方法 应 该 只 需要 分 解 
查找 路 径 底部 的 4- 结 点 ( 如 果 有 的 话 ) 。 

最 优 存储 。 修 改 RedBlackBST 的 实现 ,用 下 面 的 技巧 实现 无 需 为 结 点 颜色 的 存储 使 用 额外 的 空间 : 
要 将 结 点 标记 为 红色 ， 只 需 交换 它 的 左右 链接 。 要 检测 一 个 结 点 是 否 是 红色 ， 检 测 它 的 左 子 结 
点 是 否 大 于 它 的 右 子 结 点 。 你 需要 修改 一 些 比较 语句 来 适应 链接 的 交换 。 这 个 技巧 将 变量 的 比 
较 变 成 了 键 的 比较 ， 显 然 成 本 会 更 高 ， 但 它 说 明 在 需要 的 情况 下 这 个 变量 是 可 以 被 删 掉 的 。 
缓存 。 修 改 RedB1ackBST 的 实现 ， 将 最 近 访 问 的 结 点 Node 保存 在 一 个 变量 中 ， 这 样 get 0 或 
put() 在 再 次 访问 同一 个 键 时 就 只 需要 常数 时 间 了 ( 请 参考 练习 3.1.25 ) 。 

树 的 绘制 。 为 RedBlackBST 添加 一 个 draw 0 方法 ， 像 正文 一 样 绘制 出 红 黑 树 。 

AVL 树 。AVL 树 是 一 种 二 叉 查 找 树 ， 其 中 任意 结 点 的 两 棵 子 树 的 高 度 最 多 相差 1 ( 最 早 的 平衡 
树 算法 就 是 基于 使 用 旋转 保持 AVL 树 中 子 树 高 度 的 平衡 ) 。 证 明 将 其 中 由 高 度 为 偶数 的 结 点 指 
向 高 度 为 奇数 的 结 点 的 链接 设 为 红色 就 可 以 得 到 一 棵 ( 完美 平衡 的 ) 2-3-4 树 ， 其 中 红色 链接 可 
以 是 右 链接 。 附 加 题 ; 使 用 AVL 树 作为 数据 结构 实现 符号 表 的 API。 一 种 方法 是 在 每 个 结 点 中 
保存 它 的 高 度 并 在 递归 调用 后 使 用 旋转 来 根据 需要 调整 这 个 高 度 ; 另 一 种 方法 是 在 树 的 表示 中 
使 用 红 黑 链接 并 使 用 类 似 练习 3.3.39 和 练习 3.3.40 的 moveRedLeft() 和 moveRedRight() 的 
方法 。 

验证 。 为 RedB1ackBST 实现 一 个 is230) 方法 来 检查 是 否 存在 同时 和 两 条 红 链 接 相连 的 结 点 和 
红色 右 链 接 ， 以 及 一 个 isBalanced() 方法 来 检查 从 根 结 点 到 所 有 空 链接 的 路 径 上 的 黑 链接 的 数 
量 是 否 相同 。 将 这 两 个 方法 和 练习 3.2.32 的 isBST() 方法 结合 起 来 实现 一 个 isRedB1ackBSTC) 
来 检查 一 棵 树 是 否 是 红 黑 树 。 
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3.3.34 ”所 有 的 2-3 树 。 编 写 一 段 代码 来 生成 高 度 为 2、3 和 4 的 所 有 结构 不 同 的 2-3 树 ， 分 别 共 有 2、7 
和 122 种 (提示 : 使 用 符号 表 ) 。 
3.3.35 ”2-3 树 。 编 写 一 段 程序 TwoThreeSTjava， 使 用 两 种 结 点 类 型 来 直接 表示 和 实现 2-3 查找 树 。 
3.3.36 2-3-4-5-6-7-8 树 。 说 明 平衡 的 2-3-4-5-6-7-8 树 中 的 查找 和 插 人 算法 。 
3.3.37 无 记忆 性 。 请 证 明 红 黑 树 不 是 没有 记忆 的 。 例 如 ， 如 果 你 向 树 中 插入 一 个 小 于 所 有 键 的 新 键 ， 
然后 立即 删除 树 的 最 小 键 ， 你 可 能 得 到 一 棵 不 同 的 树 。 
3.3.38 ”旋转 的 基础 定理 。 请 证 明 ， 使 用 一 系列 左旋 转 或 者 右 旋转 可 以 将 一 棵 二 叉 查 找 树 转 化 为 由 同一 
452 组 键 生成 的 其 他 任意 一 棵 二 叉 查找 树 。 
3.3.39 ”删除 最 小 键 。 实 现 红 黑 树 的 deleteMin() 方法 ， 在 沿 着 树 的 最 左 路 径 向 下 的 过 程 中 实现 正文 所 
述 的 变换 ， 保 证 当前 结 点 不 是 2- 结 点 。 
解答 : 
private Node moveRedLeft(Node h) 
{ // 假设 结 点 h 为 红色 ，h.1eft 和 h.1eft.1eft 都 是 黑色 ， 
// 将 h.1eft 或 者 h.1eft 的 子 结 点 之 一 变 红 
flipColors(h); 
if (isRed(h.right.left)) 
{ 
h.right = rotateRight(h.right); 
h = rotateLeft(h); 
} 


return h; 

















} 
public void deleteMin() 


if (lisRed(root.left) && !isRed(root.right)) 
root.color = RED; 
root = deleteMin(root); 
if (!isEmptyO) root.color = BLACK; 
} 
private Node deleteMin(Node h) 


if (h.left == nul1) 
return null; 

if (lisRed(h.left) && !isRed(h.left.left)) 
h = moveRedLeft(h); 

h.left = deleteMin(h. left); 

return balance(h); 


} 
其 中 的 balance0 方法 由 下 一 行 代码 和 算法 3.4 的 递归 put() 方法 中 的 最 后 5 行 代码 组 成 : 
453 if (isRedCh.right)) h = rotateLeft(h); 
这 里 的 们 ipColorsQ 方法 将 会 补 全 三 条 链接 的 颜色 ， 而 不 是 正文 中 实现 插入 操作 时 实现 的 
flipColors 0 方法。 对 于 删除 , 我 们 会 将 父 结 点 设 为 BLACK( 黑 ) 而 将 两 个 子 结 点 设 为 RED( 红 )。 
3.3.40 ”删除 最 大 键 。 实 现 红 黑 树 的 deleteMax() 方法 。 需 要 注意 的 是 因为 红 链接 都 是 左 链接 ， 所 以 这 
里 用 到 的 变换 和 上 一 道 练 习 中 的 稍 有 不 同 。 
解答 : 


private Node moveRedRight(Node h) 

{ // 假设 结 点 hh 为 红色 ,，h.right 和 h.right.1eft 都 是 黑色 ， 
// 将 h.right 或 者 h.right 的 子 结 点 之 一 赤红 
flipColors(h) 
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if (!isRed(h. left.1left)) 
h = rotateRight(h); 
return h; 
了 
public void deleteMax() 
{ 
if (lisRed(root.left) && !isRed(root.right)) 
root. color = RED; 
root = deleteMax(root); 
if (lisEmpty()) root.color = BLACK; 


} 
private Node deleteMax(Node h) 
{ 
if (isRedCh.1eft)) 
h = rotateRight(h); 
if Ch.right -= nu11) 
return null; 
if (lisRed(h.right) && !isRed(h.right. left)) 
h = moveRedRightCh); 
h.right = deleteMaxCh.right); 
return balance(h); 
} 
3.3.41 删除 操作 。 将 上 两 题 中 的 方法 和 二 叉 查 找 树 的 delete() 方法 结合 起 来 ,实现 红 黑 树 的 删除 操作 。 
解答 : 


public void delete(Key key) 


if (lisRed(root. left) && lisRed(root.right)) 
root.color = RED; 

root = delete(root, key); 

if (!isEmptyO) root.color = BLACK; 


本 
private Node delete(Node h, Key key) 
{ 

if (key.compareTo(h.key) < 0) 

{ 


if (lisRed(h.left) && !isRed(h.left.left)) 
h = moveRedLeft(h); 
h.left = delete(h.left, key); 


else 


if (isRed(h. left)) 
h = rotateRight(h); 

if (key.compareTo(h.key) == 0 && (h.right == nu11)) 
return nu11; 

if (lisRed(h.right) && !isRed(h.right.left)) 
h = moveRedRight Ch); 

if (key.compareTo(h.key) == 0) 

{ 


h.val = get(h.right, min(h.right).key); 
h.key = minCh.right).key; 
h.right = deleteMinCh.right); 


} 

else h.right = delete(h.right, key); 
} 
return balance(h); 
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图 实验 至 


3.3.42 统计 红色 结 点 。 编 写 一 段 程序 ， 统 计 给 定 的 红 黑 树 中 红色 结 点 所 占 的 比例 。 对 于 N=10:、10; 和 
10， 用 你 的 程序 统计 至 少 100 棵 随机 构造 的 大 小 为 N 的 红 黑 树 并 得 出 一 个 猜想 。 

3.3.43 成 本 图 。 改造 RedB1ackBST 的 实现 来 绘制 本 节 中 能 够 显示 计算 中 每 次 put 〇 操作 的 成 本 的 图 (请 
参考 练习 3.1.38 ) 。 

3.3.44 平均 查找 用 时 。 用 实验 研究 和 计算 在 一 棵 由 入 个 随机 结 点 构造 的 红 黑 树 中 到 达 一 个 随机 结 点 的 
平均 路 径 长 度 ( 内 部 路 径 长 度 除 以 X 再 加 1 ) 的 平均 差 和 标准 差 .对 于 1 到 10 000 之 间 的 每 个 
N 至 少 重复 实验 1000 遍 。 将 结果 绘制 成 和 图 3.3.30 相似 的 Tufte 图 , 并 画 上 函数 lgN-0.5 的 曲线 。 

3.3.45 ”统计 旋转 。 改 进 你 为 练习 3.3.43 给 出 的 程序 ， 用 图 像 绘制 出 在 构造 红 黑 树 的 过 程 中 旋转 和 分 解 
结 点 的 次 数 并 讨论 结果 。 

3.3.46 ” 红 黑 树 的 高 度 。 改 进 你 为 练习 3.3.43 给 出 的 程序 ， 用 图 像 绘 制 出 所 有 红 黑 树 的 高 度 并 讨论 结果 。 


20 


和 ev-os 


成 本 


0 





T 1 
100 操作 10 000 


456 图 3.3.30 ”随机 构造 的 红 黑 树 中 到 达 一 个 随机 结 点 的 平均 路 径 长 度 〈 另 见 彩 插 ) 
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3.4 散 列 表 


如 果 所 有 的 键 都 是 小 整数 ， 我 们 可 以 用 一 个 数组 来 实现 无 序 的 符号 表 ， 将 键 作为 数组 的 索引 而 
数组 中 键 i 处 储存 的 就 是 它 对 应 的 值 。 这 样 我 们 就 可 以 快速 访问 任意 键 的 值 。 在 本 节 中 我 们 将 要 学 
习 散 列表 。 它 是 这 种 简易 方法 的 扩展 并 能 够 处 理 更 加 复杂 的 类 型 的 键 。 我 们 需要 用 算术 操作 将 键 转 
化 为 数组 的 索引 来 访问 数组 中 的 键 值 对 。 

使 用 散 列 的 查找 算法 分 为 两 步 。 第 一 步 是 用 散 列 函数 将 被 查找 的 键 转化 为 数组 的 一 个 索引 。 理 
想 情况 下 ， 不 同 的 键 都 能 转化 为 不 同 的 索引 值 。 当 然 ， 这 只 是 理想 情况 ， 所 以 我 们 需要 面 对 两 个 或 
者 多 个 键 都 会 散 列 到 相同 的 索引 值 的 情况 。 因 此 ， 散 列 查找 的 第 二 步 就 是 一 个 处 理 碰 撞 冲 突 的 过 程 ， 
如 图 3.4.1 所 示 。 在 描述 了 多 种 散 列 函 数 的 计算 后 ， 我 们 会 学 习 
两 种 解决 碰撞 的 方法 ， 拉链 法 和 线性 探测 法 。 


























散 列表 是 算法 在 时 间 和 空间 上 作出 权衡 的 经 典 例子 。 如 果 没 键 散 列 值 om 
有 内 存 限制， 我 们 可 以 直接 将 键 作为 可 能 是 一 个 超大 的 ) 数组 的 a 2 
索引 ， 那 么 所 有 查找 操作 只 和 需要 访问 内 存 一 次 即 可 完成 。 但 这 种 理 。 5 9 
想 情况 不 会 经 常 出 现 ,因为 当 键 很 多 时 需要 的 内 存 太 大 。 另 一 方面 ， d 2 
如 果 没有 时 间 限制 ， 我 们 可 以 使 用 无 序数 组 并 进行 顺序 查找 这样 al 
就 具 需 要 很 少 的 内 存 。 而 散 列表 则 使 用 了 适度 的 空间 和 时 间 并 在 这 -一 
两 个 极端 之 间 找 到 了 一 种 平衡 。 事 实 上 ， 我 们 不 必 重 写 代码 ， 只 需 磺 俯 3 [eT 











要 调整 散 列 算 法 的 参数 就 可 以 在 空间 和 时 间 之 间作 出 取 含 。 我 们 会 
使 用 概率 论 的 经 典 结论 来 帮助 我 们 选择 适当 的 参数 。 

概率 论 是 数学 分 析 的 重大 成 果 。 虽 然 它 不 在 本 书 的 讨论 范围 
之 内 ， 但 我 们 将 要 学 习 的 散 列 算法 利用 了 这 些 知识 ， 这 些 算法 虽然 A 
简单 但 应 用 广泛 。 使 用 散 列表 ， 你 可 以 实现 在 一 般 应 用 中 拥有 ( 均 
挫 后 ) 常数 级 列 的 查找 和 插入 操作 的 符号 表 。 这 使 得 它 在 很 多 情况 图 3.4.1 散 列表 的 核心 问题 
下 成 为 实现 简单 符号 表 的 最 佳 选择 。 


3.4.1 散 列 函数 

我 们 面 对 的 第 一 个 问题 就 是 散 列 函数 的 计算 ， 这 个 过 程 会 将 键 转化 为 数组 的 索引 。 如 果 我 们 有 
-个 能 够 保存 M 个 键 值 对 的 数组 ,那么 我 们 就 需要 一 个 能 够 将 任意 键 转化 为 该 数组 范围 内 的 索引 ( [0， 
M-1] 范围 内 的 整数 ) 的 散 列 函数 。 我 们 要 找 的 散 列 丽 数 应 该 易于 计算 并 且 能 够 均匀 分 布 所 有 的 键 ， 
即 对 于 任意 键 ，0 到 M-1 之 间 的 每 个 整数 都 有 相等 的 可 能 性 与 之 对 应 ( 与 键 无 关 ) 。 这 个 要 求 似乎 
有 些 难以 理解 。 那 么 要 理解 散 列 ， 就 首先 要 仔细 思考 如 何 去 实 现 这 样 一 个 函数 。 

散 列 函 数 和 键 的 类 型 有 关 。 严 格 地 说 ， 对 于 每 种 类 型 的 键 都 我 们 都 需要 一 个 与 之 对 应 的 散 列 函 
数 。 如 果 键 是 一 个 数 ， 比 如 社会 保险 号 ,我 们 就 可 以 直接 使 用 这 个 数 ， 如 果 键 是 一 个 字符 串 ， 比 如 
-个 人 的 名 字 ， 我 们 就 需要 将 这 个 字符 串 转化 为 一 个 数 ， 如 果 键 含有 多 个 部 分 ， 比 如 邮件 地 址 ， 我 
们 需要 用 某 种 方法 将 这 些 部 分 结合 起 来 。 对 于 许多 常见 类 型 的 键 ， 我 们 可 以 利用 Java 提供 的 默认 实 
现 。 我 们 会 简略 讨论 多 种 数据 类 型 的 散 列 函数 。 你 应 该 看 看 它们 是 如 何 实现 的 ， 因 为 你 也 需要 为 自 
定义 的 类 型 实现 散 列 函数 。 
3.4.1.1 典型 的 例子 

假设 在 我 们 的 应 用 中 ， 键 是 美国 的 社会 保险 号 。 一 个 社会 保险 号 含有 9 位 数字 并 被 分 为 三 个 部 








457 
458 
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分 ,例如 123-45-6789。 第 一 组 数字 表示 该 号 码 签发 的 地 区 ( 例如 ,第 一 键 。” 散 列 值 ” 散 列 值 
组 号 码 为 035 的 社会 保险 号 来 自 罗 得 岛 州 ，214 则 来 自 马里 兰州 ) ， 另 两 
组 数字 表示 个 人 身份 。 社 会 保险 号 共有 10 亿 ( 10? ) 个 , 但 假设 我 们 的 应 ea 18 36 
用 程序 只 需要 处 理 几 百 个 ,我 们 可 以 使 用 一 个 大 小 M=1000 的 散 列表 。 散 ”302 2 并 
列 函数 的 一 种 实现 方法 是 使 用 键 ( 社会 保险 号 ) 中 的 三 个 数字 。 用 第 三 940 9 
组 中 的 三 个 数字 似乎 比 用 第 一 组 中 的 三 个 数字 更 好 ( 因为 我 们 的 客户 不 “704 4 25 
太 可 能 完全 平均 地 分 布 在 各 个 地 区 ) ， 但 下 面 会 讲 到 ,更 好 的 方法 是 用 6l2 12 30 


所 有 9 个 数字 得 到 一 个 整数 ， 然 后 再 考虑 整数 的 散 列 函数 。 于 
3.4.1.2 正 整数 510 10 25 
将 整数 散 列 最 常用 方法 是 除 留 余数 法 。 我 们 选择 大 小 为 素数 M 的 数组 ， 423 23 35 


对 于 任意 正 整数 上 ， 计 算 人 除 以 M 的 余数 。 这 个 函数 的 计算 非常 容易 (在 37 多 各 

Java 中 为 k%M ) 并 能 够 有 效 地 将 键 散布 在 0 到 M-1 的 范围 内 。 如 果 M 不 。 907 7 34 

是 素数 ， 我 们 可 能 无 法 利用 键 中 包含 的 所 有 信息 ， 这 可 能 导致 我 们 无 法 均 。 507 a 

匀 地 散 列 散 列 值 。 例 如 ， 如 果 键 是 十 进 制 数 而 M 为 10'， 那 么 我 们 只 能 利 7234 14 入 

用 键 的 后 位 ， 这 可 能 会 产生 一 些 问题 。 举 个 简单 的 例子 ， 假 设 键 为 电话 。 857 57 81 

号 码 的 区 号 且 M=100。 由 于 历史 原因 ， 美 国 的 大 部 分 区 号 中 间 位 都 是 0 或 。 801 2 po 

者 1， 因 此 这 种 方法 会 将 大 量 的 键 散 列 为 小 于 20 的 索引 ， 但 如 果 使 用 素数 413 1 25 

97， 散 列 值 的 分 布 显然 会 更 好 ( 一 个 离 100 更 远 的 素数 会 更 好 ) ， 如 右 侧 。 701 1 22 

所 示 。 与 之 类 似 ， 互 联网 中 使 用 的 IP 地 址 也 不 是 随机 的 ， 所 以 如 果 我 们 想 。 418 eg 

用 除 留 余数 法 将 其 散 列 就 需要 用 素数 (2 的 短 除 外 ) 大 小 的 数组 。 

3.4.1.3 浮 点 数 除 留 余数 法 
如 果 键 是 0 到 1 之 间 的 实数 , 我 们 可 以 将 它 乘 以 M 并 四 售 五 人 得 到 一 个 0 至 M-1 之 间 的 索引 值 。 

尽管 这 个 方法 很 容易 理解 ， 但 它 是 有 缺陷 的 ， 因 为 这 种 情况 下 键 的 高 位 起 的 作用 更 大 ， 最 低位 对 散 

列 的 结果 没有 影响 。 修 正 这 个 问题 的 办 法 是 将 键 表示 为 二 进 制 数 然后 再 使 用 除 留 余数 法 ( Java 就 是 


这 么 做 的 ) 。 
3.4.1.4 字符 串 

除 留 余数 法 也 可 以 处 理 较 长 的 
键 ， 例 如 字符 串 ， 我 们 只 需 将 它们 当 oF 全 各 了 20; 4 < siengthOoi Th 
作 大 整数 即 可 。 例 如 ， 右 侧 的 代码 就 hash = (R * hash + s.charAt(i)) % M; 
人 String S 的 散 列 字符 串 键 


Java 的 charAt() 函数 能 够 返回 一 个 char 值 ， 即 一 个 非 负 16 位 整数 。 如 果 R 比 任何 字符 的 值 都 
大 ,这 种 计算 相当 于 将 字符 串 当 作 一 个 N 位 的 R 进 制 值 ， 将 它 除 以 M 并 取 余 。 一 种 叫 Homer 方法 的 
经 典 算法 用 N 次 乘法 、 加 法 和 取 余 来 计算 一 个 字符 串 的 散 列 值 。 只 要 R 足够 小 ， 不 造成 溢出 ， 那 么 结 
果 就 能 够 如 我 们 所 愿 ， 落 在 0 至 M-1 之 内 。 使 用 一 个 较 小 的 素数 ， 例 如 31， 可 以 保证 字符 串 中 的 所 
有 字符 都 能 发 挥 作用 。Java 的 String 的 默认 实现 使 用 了 一 个 类 似 的 方法 。 
3.4.1.5 组 合 键 

如 果 键 的 类 型 含有 多 个 整 型 变量 ， 我 们 可 以 和 String 类 型 一 样 将 它们 混合 起 来 。 例 如 ， 
假设 被 查找 的 键 的 类 型 是 Date， 其 中 含有 几 个 整 型 的 域 : day ( 两 个 数字 表示 的 日 ) ，month 

(两 个 数字 表示 的 月 ) 和 year (4 个 数字 表示 的 年 ) 。 我 们 可 以 这 样 计 算 它 的 散 列 值 : 
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int hash = (CCday * R + month) % M ) * R + year) % M; 

只 要 RR 足够 小 不 造成 溢出 ， 也 可 以 表 3.4.1 所 有 例子 中 的 键 的 散 列 值 
得 到 一 个 0 至 M-1 之 间 的 散 列 值 。 在 
这 种 情况 下 我 们 可 以 通过 选择 一 个 适当 
的 M， 比 如 31， 来 省 去 括号 内 的 %M 计 
算 。 和 字符 串 的 散 列 算法 一 样 ， 这 个 方 
法 也 能 处 理 有 任意 多 整 型 变量 的 类 型 。 
3.4.1.6 ”Java 的 约定 

每 种 数据 类 型 都 需要 相应 的 散 列 函数 ， 于 是 Java 令 所 有 数据 类 型 都 继承 了 一 个 能 够 返回 一 个 
32 位 整数 的 hashCodeQ 方法 。 每 一 种 数据 类 型 的 hashCode() 方法 都 必须 和 equal1s() 方法 一 
致 。 也 就 是 说 ， 如 果 a.equals(b) 返回 true, 那么 a.hashCode() 的 返回 值 必然 和 b.hashCode() 
的 返回 值 相同 。 相 反 ， 如 果 两 个 对 象 的 hashCode() 方法 的 返回 值 不 同 ， 那 么 我 们 就 知道 这 两 个 
对 象 是 不 同 的 。 但 如 果 两 个 对 象 的 hashCode() 方法 的 返回 值 相 同 ， 这 两 个 对 象 也 有 可 能 不 同 ， 
我 们 还 需要 用 equa1s © 方法 进行 判断 。 请 注意 ， 这 说 明 如 果 你 要 为 自 定义 的 数据 类 型 定义 散 列 函 
数 ， 你 需要 同时 重 写 hashCode() 和 equal1s() 两 个 方法 。 默 认 散 列 函数 会 返回 对 象 的 内 存 地 址 ， 
但 这 只 适用 于 很 少 的 情况 。Java 为 很 多 常用 的 数据 类 型 重 写 了 hashCode() 方法 (包括 String、 
Integer, Double、 File 和 URL), 
3.4.1.7 将 hashCode() 的 返回 值 转化 为 一 个 数组 索引 

因为 我 们 需要 的 是 数组 的 索引 而 不 是 一 个 32 位 的 整数 ， 我 们 在 实现 中 会 将 默认 的 hashCode() 
方法 和 除 留 余数 法 结合 起 来 产生 一 个 0 到 M-1 的 整数 ， 方 法 如 下 : 

private int hash(Key x) 

{ return (x.hashCode() & 0x7fffffff) % M; } 

这 段 代码 会 将 符号 位 屏 项 (将 一 个 32 位 整数 变 为 一 个 31 位 非 负 整数 ) ， 然 后 用 除 留 余数 法 计 
算 它 除 以 M 的 余数 。 在 使 用 这 样 的 代码 时 我 们 一 般 会 将 数组 的 大 小 M 取 为 素数 以 充分 利用 原 散 列 值 
的 所 有 位 。 注 意 : 为 了 避免 混乱 ， 我 们 在 例子 中 不 会 使 用 这 种 计算 方法 而 是 使 用 表 3.4.1 所 示 的 散 
列 值 作为 替代 。 





键 -i -机 夺 了 大 
散 列 值 (M=5 2 0 0 4 4 4 2 4 3 3 
散 列 值 M=16) 6 10 4 14 5 4 15 1 14 6 





3.4.1.8 自 定义 的 hashCode() 方法 public class Transaction 
散 列表 的 用 例 希 望 hashCode() 方法 

能 够 将 键 平均 地 散布 为 所 有 可 能 的 32 位 ie ay a 
整数 。 也 就 是 说 ， 对 于 任意 对 象 x， 你 可 private final Date when; 

以 调用 x.hashCode() 并 认为 有 均等 的 机 private final double amount; 
会 得 到 22 中 的 任意 一 个 32 位 整数 值 。 人 
Java 中 的 String、Integer 、Double、 int hash = 17; 

hash = 31 * hash + who.hashCodeO; 
File 和 URL 对 将 的 tashCode 方法 都 te he dhe sa 
能 实现 这 一 点 。 而 对 于 自己 定义 的 数据 类 hash = 31 * hash 

y ， 你 必 有 实现 这 一 ((Double) amount) .hashCodeO; 
型 ， 你 必须 试 着 自己 实现 这 一 点 。3.4.1.5 i ps 


节 中 的 Date 例子 展示 了 一 种 可 行 的 方案 : } 

用 实例 变量 的 整数 值 和 除 留 余数 法 得 到 散 i 
列 值 。 在 Java 中 ， 所 有 的 数据 类 型 都 继 
承 了 hashCode() 方法 ， 因 此 还 有 一 个 更 自 定义 类 型 中 hashCodeQ 〇 方法 的 实现 
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简单 的 做 法 : 将 对 象 中 的 每 个 变量 的 hashCodeQ 返回 值 转化 为 32 位 整数 并 计算 得 到 散 列 值 ， 如 
Transaction 类 所 示 。 

对 于 原始 类 型 的 对 象 ， 可 以 将 其 转化 为 对 应 的 数据 类 型 然后 再 调用 hashCode() 方法 。 和 以 前 

- 样 ， 系 数 的 具体 值 ( 这 里 是 31 ) 并 不 是 很 重要 

3.4.1.9 软 缓存 

如 果 散 列 值 的 计算 很 耗 时 ， 那 么 我 们 或 许可 以 将 每 个 键 的 散 列 值 缓存 起 来 ， 即 在 每 个 键 中 使 用 

-个 hash 变量 来 保存 它 的 hashCode() 的 返回 值 ( 请 见 练习 3.4.25 ) 。 第 一 次 调用 hashCode() 方 

法 时 ,我们 需要 计算 对 象 的 散 列 值 , 但 之 后 对 hashCode 0 方法 的 调用 会 直接 返回 hash 变量 的 值 。 
Java 的 String 对 象 的 hashCode() 方法 就 使 用 了 这 种 方法 来 减少 计算 量 

总 的 来 说 ， 要 为 一 个 数据 类 型 实现 一 个 优秀 的 散 列 方法 需要 满足 三 个 条 件 : 

口 一 致 性 一 一 等 价 的 键 必然 产生 相等 的 散 列 值 ; 

口 高 效 性 一 一 计算 简便 ; 

口 均匀 性 一 一 均匀 地 散 列 所 有 的 键 

设计 同时 满足 这 三 个 条 件 的 散 列 函 数 是 专家 们 的 事 。 有 了 各 种 内 置 函 数 ，Java 程序 员 在 使 用 散 
列 时 只 需要 调用 hashCode() 方法 即 可 ， 我 们 没有 理由 不 信任 它们 

但 是 ， 在 有 性 能 要 求 时 应 该 谨慎 使 用 散 列 ， 因 为 精 糕 的 散 列 函数 经 常 是 性 能 问题 的 罪 风 祸首， 
程序 可 以 工作 但 比 预想 的 慢 得 多 。 保 证 均匀 性 的 最 好 办 法 也 许 就 是 保证 键 的 每 一 位 都 在 散 列 值 的 计 
算 中 起 到 了 相同 的 作用 ; 散 列 函数 最 常见 的 错误 也 许 就 是 忽略 了 键 的 高 位 。 无 论 散 列 函数 的 实 
现 是 什么 ， 当 性 能 很 重要 时 你 应 该 测试 所 使 用 的 所 有 散 列 函 数 。 计 算 散 列 函数 和 比较 两 个 键 ， 哪 个 
耗 时 更 多 ?你 的 散 列 函 数 能 够 将 一 组 键 均 匀 地 散布 在 0 到 M-1 之 间 吗 ? 用 简单 的 实现 测试 这 些 问 
题 能 够 预防 未 来 剧 。 例 如 ， 图 显示 出 ， 对 于 《双城记 》 我 们 的 hash() 方法 在 使 用 了 
Java 的 String 类 型 的 hashCode() 方法 后 能 够 得 到 一 个 合理 的 分 布 






















110 = Ne 


ph 


键 值 % 
图 3.4.2 《双城记 》 中 每 个 单词 的 散 列 值 的 出 现 频率 〈10 679 个 键 ， 即 单词 ，M=97) 【 另 见 彩 插 ) 
这 些 讨论 的 背后 是 我 们 在 使 用 散 列 时 作出 的 一 个 重要 假设 。 这 个 假设 是 一 个 我 们 实际 上 无 法 达 
到 的 理想 模型 ， 但 它 是 我 们 实现 散 列 函数 时 的 指导 思想 。 





假设 J( 均匀 散 列 假设 ) 。 我 们 使 用 的 散 列 函数 能 够 均匀 并 独立 地 将 所 有 的 键 散布 于 0 到 M-1 之 间 。 


讨论 。 我 们 在 实现 散 列 函数 时 随意 指定 了 很 多 参数 ， 这 显然 无 法 实现 一 个 能 够 在 数学 意义 上 均 
匀 并 独立 地 散布 所 有 键 的 散 列 函 数 。 坚 深 的 理论 研究 告诉 我 们 想 要 找到 一 个 计算 简单 但 又 拥有 
一 致 性 和 均匀 性 的 散 列 函 数 是 不 太 可 能 的 。 在 实际 应 用 中 ， 和 使 用 Math.random() 生成 随机 数 
一 样 ， 大 多 数 程序 员 都 会 满足 于 随机 数 生成 加 类 的 散 列 函数 。 很 少 有 人 会 去 检验 独立 性 ， 而 这 
个 性 质 一 般 都 不 会 满足 。 
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尽管 验证 这 个 假设 很 困难 ， 假 设 了 仍然 是 考察 散 列 函 数 的 重要 方式 ， 原 因 有 两 点 。 首 先 ， 设 计 
散 列 函 数 时 尽量 避免 随意 指定 参数 以 防止 大 量 的 碰撞 ， 这 是 我 们 的 重要 目标 ; 其 次 ， 尽 管 我 们 可 能 
无 法 验证 假设 本 身 ， 它 提示 我 们 使 用 数学 分 析 来 预测 散 列 算法 的 性 能 并 在 实验 中 进行 验证 。 [463 


3.4.2 ”基于 拉链 法 的 散 列表 
一 个 散 列 函数 能 够 将 键 转化 为 数组 索引 。 散 列 算法 的 第 二 步 是 碰撞 处 理 ， 也 就 是 处 理 两 个 或 多 
个 键 的 散 列 值 相同 的 情况 。 一 种 直接 的 办 法 是 将 大 小 为 M 的 数组 中 的 每 个 元 素 指向 一 条 链表 ， 链 
表 中 的 每 个 结 点 都 存储 了 散 列 值 为 该 元 素 的 索引 的 键 值 对 。 这 种 方法 被 称 为 拉链 法 ， 因 为 发 生 冲 突 
的 元 素 都 被 存储 在 链表 中 。 这 个 方法 的 基本 思想 就 是 选择 足够 大 的 M， 使 得 所 有 链表 都 尽 可 能 短 以 
保证 高 效 的 查找 。 查 找 分 两 步 : 首先 根据 散 列 值 找到 对 应 的 链表 ,然后 沿 着 链表 顺序 查找 相应 的 键 。 
拉链 法 的 一 种 实现 方法 是 使 用 原始 的 链表 数据 类 型 ( 请 见 练习 3.42) 来 扩展 
SequentialSearchST (算法 3.1 ) 。 另 一 种 更 简单 的 方法 ( 但 效率 稍 低 ) 是 采用 一 般 性 的 策略 ， 为 
M 个 元 素 分 别 构建 符号 表 来 保存 散 列 到 这 里 的 键 ， 这 样 也 可 以 重用 我 们 之 前 的 代码 。 算 法 3.5 实现 
的 SeparateChainingHashST 使 用 了 一 个 SequentialSearchST 对 象 的 数组 ， 在 put() 和 get() 
的 实现 中 先 计算 散 列 函数 来 选 定 被 查找 的 SequantialSearchST 对 象 ， 然 后 使 用 符号 表 的 put() 
和 get() 方法 来 完成 相应 的 任务 。 
因为 我 们 要 用 M 条 链表 。 刍 
保存 N 个 键 ， 无 论 键 在 各 个 链 5 
表 中 的 分 布 如 何 ， 链 表 的 平均 。 E 
长 度 肯定 是 NM。 例如 , 假设 A 
所 有 的 键 都 落 在 了 第 一 条 链表 。 R 
上 ， 所 有 链表 的 平均 长 度 仍然 。 5 
是 (N+0+0+…+0YMENIM。 拉 HH 
E 
x 
A 
M 
p 
L 
E 
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链 法 在 实际 情况 中 很 有 用 ， 因 
为 每 条 链表 确实 都 大 约 含有 NM 
MM 个 键 值 对 。 在 一 般 情况 中 ， 
我 们 能 够 由 它 验 证 假设 J 并 且 
可 以 依赖 这 种 高 效 的 查找 和 插 
入 实现 。 

在 标准 索引 用 例 中 使 用 基 
于 拉链 法 的 散 列 表 如 图 3.4.3 图 3.4.3 标准 索引 用 例 使 用 基于 拉链 法 的 散 列表 464| 
所 示 。 


算法 3.5 ”基于 拉链 法 的 散 列表 


public class SeparateChainingHashST<Key, Value> 
4 
private int N; // 键 值 对 总 数 
private int M; // 数列 表 的 大 小 
private SequentialSearchST<Key，Value>[] st; // 存放 链表 对 象 的 教 组 
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public SeparateChainingHashST() 
{ this(997); } 
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public SeparateChainingHashSTCint M) 
人 // 创建 M 条 链表 
this.M = M; 
st = (SequentialSearchST<Key, Value>[]) new SequentialSearchST[M]; 
for (int i = 0; 1 < M; i++) 
st[i] = new SequentialSearchSTO; 
} 
private int hash(Key key) 
{ return (key.hashCode() & 0x7fffffff) % M; } 
public Value get(Key key) 
{ return (Value) st[hash(key)] .get(key); } 
public void put(Key key, Value val) 
{ st[hash(key)].put(key, val); } 
public Iterable<key> keys() 
// 请 见 练习 3.4.19 


} 


这 段 简单 的 符号 表 实 现 维护 着 一 条 链表 的 数组 ， 用 散 列 函 数 来 为 每 个 键 选择 一 条 链表 。 简 单 起 见 ， 
我 们 使 用 了 Sequentia1SearchST。 在 创建 st[] 时 需要 进行 类 型 转换 ， 因 为 Java 不 允许 泛 型 的 数组 ， 
默认 的 构造 函数 会 使 用 997 条 链表 ， 因 此 对 于 较 大 的 符号 表 ， 这 种 实现 比 SequentialSearchST 大约 
会 快 1000 倍 。 当 你 能 够 预知 所 需要 的 符号 表 的 大 小 时 ， 这 段 短小 精 悍 的 方案 能 够 得 到 不 错 的 性 能 。 一 种 
更 可 靠 的 方案 是 动态 调整 链表 数组 的 大 小 ， 这 样 无 论 在 符号 表 中 有 多 少 键 值 对 都 能 保证 链表 较 短 ( 请 见 

465] 3.4.4 节 及 练习 3.4.18) 。 

















命题 K。 在 一 张 合 有 M 条 链表 入 个 键 的 的 散 列表 中 ，( 在 假设 了 成 立 的 前 提 下 ) 任意 一 条 链 
表 中 的 键 的 数量 均 在 N/M 的 常数 因子 范围 内 的 概率 无 限 趋向 于 1。 


简略 的 证 明 。 有 了 假设 J， 这 个 问题 就 变 成 了 一 个 经 典 的 概率 论 问题 。 在 这 里 我 们 为 有 一 些 概 
率 论 基础 知识 的 读者 给 出 一 个 简要 的 证 明 。 


由 二 项 分 布 可 知 ， 一 条 给 定 的 链表 正好 含有 上 个 键 的 概率 为 


(10, 0.12511..) ts 
NENEAM_INA i 1 1 人 
Co 
天 做 M ad 二 项 分 布 (N=10*, M= 103, a=10) 


因为 我 们 实际 上 是 从 入 个 键 中 取 了 其 中 大 个。 这 上 个 键 被 散 列 到 给 定 的 链表 的 概率 均 为 /JM， 而 剩 
下 的 (N- 妈 个 键 不 被 散 列 到 给 定 的 链表 中 的 概率 均 为 (1-1/M)。 令 a=NIM， 这 个 公式 可 以 写 为 : 


人 人 
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对 于 较 小 的 a ,经典 的 泊 松 分 布 可 以 非常 近似 地 表示 它 : 


(10,0.12572..) a 
1 上 1 3 jh 
qe” 0 10 20 30 
Kk! 泊 松 分 布 (N= 104, M= 103, a=10) 


由 此 可 得 ， 一 条 链表 中 含有 超过 ta 个 键 的 概率 不 会 超过 (aelt ) le*。 对 于 实际 应 用 来 说 ， 这 
个 数字 非常 小 。 例 如 ， 如 果 平均 链表 长 度 为 10， 那 么 一 个 键 的 散 列 值 落 在 一 条 长 度 超过 20 的 
链表 的 概率 不 超过 ( 10e/2 ) 'e "~ 0.0084; 如 果 平 均 链 表 长 度 为 209， 那 和 一 个 键 的 散 列 值 落 在 
一 条 长 度 超过 40 的 链表 的 概率 不 超过 ( 20 e/2 ) ie ”~ 0.000 001 6。 这 个 结果 并 不 能 保证 每 条 链 
表 都 很 短 ， 但 我 们 可 以 知道 当 a 一 定时 ， 最 长 链表 的 平均 长 度 的 增长 速度 为 logN/loglogN。 466| 














这 段 数学 分 析 非 常 有 力 , 但 需要 注意 的 是 它 完全 依赖 于 假设 ]。 如果 散 列 函 数 不 是 均匀 和 独立 的 ， 
那么 查找 和 插入 的 成 本 就 可 能 入 成 正比 ， 也 就 是 和 顺序 查找 类 似 。 假 设 了 比 我 们 见 过 的 其 他 和 概 
率 有 关 的 算法 中 相应 的 假设 都 有 效 ， 但 也 更 加 难以 验证 。 在 计算 散 列 值 时 ， 我 们 假设 每 个 键 都 有 均 
等 的 机 会 被 散 列 到 M 个 索引 中 的 任意 一 个 ,无论 键 有 多 复杂 。 我 们 没 法 用 实验 来 验证 所 有 可 能 的 
数据 类 型 ， 所 以 我 们 会 进行 更 复杂 的 实验 ， 在 实际 应 用 中 可 能 出 现 的 一 组 键 中 随机 取样 进行 验证 ， 
然后 统计 结果 并 分 析 。 好 消息 是 我 们 在 测试 中 仍然 可 以 使 用 这 个 算法 来 验证 假设 和 由 它 得 出 的 数 
学 推论 。 


性 质 L。 在 一 张 含 有 M 条 链表 和 NN 个 键 的 的 散 列表 中 ， 未 命中 查找 和 插入 操作 所 需 的 比较 次 数 
为 ~NIM。 


例证 。 在 实际 应 用 中 ， 散 列表 算法 的 高 性 能 并 不 需要 散 列 函数 完全 符合 假设 J 意义 上 的 均匀 性 。 
自 20 世纪 50 年 代 以 来 ， 无 数 程序 员 都 见证 了 命题 K 所 预言 的 性 能 改进 ， 即 使 有 些 散 列 函数 
不 是 均匀 的 ,命题 也 成 立 。 例 如 ， 图 3.44 所 示 的 FrequencyCounter 使 用 的 散 列表 ( 其 中 的 
hash() 方法 是 基于 Java 的 String 类 型 的 hashCode() 方法 ) 中 的 链表 长 度 和 理论 模型 完全 一 
致 。 这 条 性 质 的 例外 之 一 是 在 许多 情况 下 散 列 函数 未 能 使 用 键 的 所 有 信息 而 造成 的 性 能 低下 。 
除 此 之 外 ， 大 量 经 验 丰 富 的 程序 员 给 出 的 应 用 实例 令 我 们 确信 ， 在 基于 拉链 法 的 散 列 表 中 使 用 
大 小 为 M 的 数组 能 够 将 查找 和 插入 操作 的 效率 提高 M 倍 。 


3.4.2.1 散 列表 的 大 小 
在 实现 基于 拉链 法 的 散 列 表 时 ， 我 们 的 目标 是 选择 适当 的 数组 大 小 M， 既 不 会 因为 空 链表 
而 浪费 大 量 内存 ， 也 不 会 因为 链表 太 长 而 在 查找 上 浪费 太 多 时 间 。 而 拉链 法 的 一 个 好 处 就 是 这 
并 不 是 关键 性 的 选择 。 如 果 存 人 的 键 多 于 预期 ， 查 找 所 需 的 时 间 只 会 比 选 择 更 大 的 数组 稍 长 ; 
如 果 少 于 预期 ， 虽 然 有 些 空间 浪费 但 查找 会 非常 块 。 当 内 存 不 是 很 紧张 时 ， 可 以 选择 一 个 足够 
大 的 M， 使 得 查找 需要 的 时 间 变 为 常数 ; 当 内 存 紧张 时 ， 选 择 尽量 大 的 M 仍 然 能 够 将 性 能 提高 ”[467 
M 倍 。 例 如 对 于 FrequencyCounter， 从 图 3.4.4 可 以 看 出 ， 每 次 操作 所 需要 的 比较 次 数 从 使 用 
SequentialSearchST 时 的 上 千 次 降低 到 了 使 用 SeparateChainingHashsT 时 的 若干 次 ， 正 如 我 
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们 所 料 。 另 一 种 方法 是 动态 调整 数组 的 大 小 以 保持 短小 的 链表 ( 请 见 练习 3.4.18 ) 


a=10711... 


125 


频率 





0 10 20 30 
链表 的 长 度 〔10 679 个 键 , M= 997) 
图 3.4.4 使 用 SeparateChainingHashST， 运 行 java FrequencyCounter 8 < tale.txt 时 所 有 链 
表 的 长 度 〈 另 见 彩 插 ) 
3.4.2.2 ”删除 操作 
要 删除 一 个 键 值 对 ， 先 用 散 列 值 找 到 含有 该 键 的 SequentialSearchST 对 象 ， 然 后 调用 该 对 象 
的 delete() 方法 (请 见 练习 3.1.5 ) 。 这 种 重用 已 有 代码 的 方式 比重 新 实现 链表 的 删除 更 好 。 
3.4.2.3 ”有 序 性 相关 的 操作 
散 列 最 主要 的 目的 在 于 均匀 地 将 键 散布 开 来 ,因此 在 计算 散 列 后 键 的 顺序 信 丢失 了 ,如 图 3.4.5 
所 示 。 如 果 你 需要 快速 找到 最 大 或 者 最 小 的 键 ， 或 是 查找 某 个 范围 内 的 键 ， 或 是 实现 表 3.1.4 中 有 序 
符号 表 API 中 的 其 他 任何 方法 , 散 列表 都 不 是 合适 的 选择 , 因为 这 些 操作 的 运行 时 间 都 将 会 是 线性 的 。 
基于 拉链 法 的 散 列表 的 实现 简单 。 在 键 的 顺序 并 不 重要 的 应 用 中 ， 它 可 能 是 最 快 的 ( 也 是 使 
用 最 广泛 的 ) 符号 表 实现 。 当 使 用 Java 的 内 置 数据 类 型 作 # 








键 ， 或 是 在 使 用 含有 经 过 完善 测试 的 
hashCode() 方法 的 自 定义 类 型 作为 键 时 ， 算 法 3.5 能 够 提供 快速 而 方便 的 查找 和 插 和 操作。 下面， 
我 们 会 介绍 另 一 种 解决 碰撞 冲突 的 有 效 方法 











1 
0 操作 14350 





[468] 图 3.4.5 使 用 SeparateChainingHashST， 运行 java FrequencyCounter 8 < tale.txt 的 成 本 
(M=997) 


3.4.3 ”基于 线性 探测 法 的 散 列表 

实现 散 列表 的 另 一 种 方式 就 是 用 大 小 为 M 的 数组 保存 个 键 值 对 ， 其 中 M>N。 我 们 需要 依靠 
数组 中 的 空位 解决 碰撞 冲突 。 基 于 这 种 策略 的 所 有 方法 被 统称 为 开放 地 址 散 列表 。 

开放 地 址 散 列表 中 最 简单 的 方法 叫做 线性 探测 法 ， 当 碰撞 发 生 时 ( 当 一 个 键 的 散 列 值 已 经 被 另 
-个 不 同 的 键 占用 ) ， 我 们 直接 检查 散 列表 中 的 下 一 个 位 置 ( 将 索引 值 加 1 ) 。 这 样 的 线性 探测 可 
能 会 产生 三 种 结果 : 











3.4 散 列 表 本 301 


口 命中 ,该 位 置 的 键 和 被 查找 的 键 相 同 ; 

口 未 命中 ， 键 为 空 (该 位 置 没有 键 ) ; 

口 继续 查找 ， 该 位 置 的 键 和 被 查找 的 键 不 同 。 

我 们 用 散 列 函 数 找到 键 在 数组 中 的 索引 ， 检 查 其 中 的 键 和 被 查找 的 键 是 否 相同 。 如 果 不 同 则 继 
续 查 找 (将 索引 增 大 ， 到 达 数 组 结尾 时 折 回 数组 的 开头 ) ， 直 到 找到 该 键 或 者 遇 到 一 个 空 元 素 ， 如 
图 3.4.6 所 示 。 我 们 习惯 将 检查 一 个 数组 位 置 是 否 含有 被 查找 的 键 的 操作 称 作 探测 。 在 这 里 它 可 以 
等 价 于 我 们 一 直 使 用 的 比较 ， 不 过 有 些 探测 实际 上 是 在 测试 键 是 否 为 空 。 

开放 地 址 类 的 散 列表 的 核心 思想 是 与 其 将 内 存 用 作 链 表 ， 不 如 将 它们 作为 在 散 列 表 的 空 元 素 。 
这 些 空 元 素 可 以 作为 查找 结束 的 标志 。 在 LinearProbingHashST 中 可 以 看 到 (算法 3.6 ) ,使 用 这 
种 思想 来 实现 符号 表 的 API 是 十 分 简单 的 。 我 们 在 实现 中 使 用 了 并 行 数组 ， 一 条 保存 键 ， 一 条 保存 
值 ， 并 像 前 面 讨论 的 那样 使 用 散 列 函 数 产 生 访问 数据 所 需 的 数组 索引 。 











键 散 列 值 o0123456789 UB1M1 
5 6 S 
0 
E 

Ey 红色 的 是 1 

插入 的 刍 灰色 的 刍 
站 新 a .一 未 被 访问 
Ra4 R 
这 黑色 的 

是 控 针 键 
家 racls 4 
E10 由 
x 15 3 
A 4 全 
nl 9 探测 序列 

p R X 一 折 回 到 0 
p14 电 
L 6 SH 盐 
Ew 四 二 党组 
图 3.4.6 ”标准 索引 用 例 使 用 的 基于 线性 探测 的 符号 表 的 轨迹 〈 另 见 彩 插 ) [469 











算法 3.6 ”基于 线性 探测 的 符号 表 


public class LinearprobingHashST<key，Value> 
{ 

private int N; // 符号 表 中 键 值 对 的 总 数 

private int M = 16; // 线性 探测 表 的 大 小 

private Key[] keys; 。 // 键 

private Value[] vals; // 值 

public LinearProbingHashST() 

{ 

keys = (Key[]) new Object[M]; 
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470| 











vals = (Value[]) new Object[M]; 
} 
private int hash(Key key) 
{ return (key.hashCode() & 0x7fffffff) % M; } 


private void resizeO) // 请 见 3.4.4 节 
public void put(Key key, Value val) 
{ 
if CN >= M/2) resize(2*M); // 将 M 加 售 (请 见 正文 ) 
int i; 
for (i = hash(key); keys[i] != null; i = (i+1D)%M 
if (keys[i].equals(key)) { vals[i] = val; return; } 
keys[i] = key; 
vals[i] = val; 
Nt+i 
S 
public Value get(Key key) 
{ 


for (int i = hash(key); keys[i] != null; i = (i + 1)%M) 
if (keys[i] .equals(key)) 
return vals[i]; 
return null; 
} 


这 段 符号 表 的 实现 将 键 和 值 分 别 保存 在 两 个 数组 (BinarySearchST 类 型 ) 中 ,使 用 空 (标记 为 
5 素 ,那么 就 将 它 保存 在 那里 ; 如 果 不 是 ， 
要 查找 一 个 键 , 我 们 从 它 的 散 列 值 开始 顺序 查找 , 如 果 找 到 则 命中 ， 


nu11 ) 来 表示 一 徐 键 的 结束 。 如 果 一 个 新 键 的 散 列 值 是 一 个 空 
我 们 就 顺序 查找 一 个 空 元 素来 保 
如 果 过 到 空 元 素 则 未 命中 。keys() 方法 的 实现 请 见 练习 3.4.19。 

















3.4.3.1 删除 操作 public void delete(Key key) 

如 何 从 基于 线性 探测 的 散 列表 中 删除 一 个 。{ 
键 ? 仔细 想 一 起 ， 你 会 发 现 直接 将 该 键 所 在 的 位 。 CcontainsCkey)》 recurni 
置 设 为 nu11 是 不 行 的 ， 因 为 这 会 使 得 在 此 位 置 之 while (!key.equals(keys[i])) 
后 的 元 素 无 法 被 查找 。 例 如 ， 假 设 在 轨迹 图 的 例 es Tae 
子 中 ( 图 3.4.6 ) 我 们 需要 用 这 种 方法 删除 键 C， valsGi] = nun1; 
然后 查找 H。H 的 散 列 值 是 4， 但 它 实际 存储 在 这 ne ea 
一 秘 键 的 结尾 ， 即 7 号 位 置 。 如 果 我 们 将 5 号 位 { 
置 设 为 nu11，get0 方法 将 无 法 找到 H。 因 此 ， 人 
我 们 需要 将 簇 中 被 删除 键 的 右 侧 的 所 有 键 重新 插 keys[i] = null; 
入 散 列表 。 这 个 过 程 比 想象 的 要 复杂 ， 所 以 你 最 让 全 人 
好 以 练习 (请 见 练习 3.4.17 ) 为 例 跟踪 右 侧 这 段 代 put (keyToRedo, valToRedo); 
码 的 运行 全 过 程 。 i=(i+1)%M; 

和 拉链 法 一 样 ， 开 放 地 址 类 的 散 列表 的 性 能 Ns 
也 依赖 于 a=MM 的 比值 ， 但 意义 有 所 不 同 。 我 们 人 


将 a 称 为 散 列表 的 使 用 率 。 对 于 基于 拉链 法 的 散 
列表 ，a 是 每 条 链表 的 长 度 ， 因 此 一 般 大 于 1; 基于 线性 探测 的 散 列表 的 删除 操作 
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对 于 基于 线性 探测 的 散 列 表 ， 是 表 中 已 被 占用 的 空间 的 比例 ， 它 是 不 可 能 大 于 1 的 。 事 实 上 , 在 
LinearProbingHashST 中 我 们 不 允许 a 达到 1 ( 散 列表 被 占 满 ) ， 因 为 此 时 未 命中 的 查找 会 导致 
无 限 循环 。 为 了 保证 性 能 ， 我 们 会 动态 调整 数组 的 大 小 来 保证 使 用 率 在 1/8 到 1/2 之 间 。 这 个 策略 


是 基于 数学 上 的 分 析 ， 我 们 会 在 讨论 实现 的 细节 之 前 介绍 。 


3.4.3.2 键 簇 
线性 探测 的 平均 成 本 取决 于 元 素 在 插入 数组 后 聚集 成 新 键 范 人 该 
的 一 组 连续 的 条 目 ， 也 叫做 键 僚 ， 如 图 3.4.7 所 示 。 例 如 ， 。 插入 这 前。 的 要 半 为 804 
在 示例 中 插入 键 C 会 产生 一 个 长 度 为 3 的 键 策 (AC S) 。 i 
这 意味 着 插入 需要 探测 4 次 ， 因 为 | 的 散 列 人 为 该 刍 筑 。。 ，.。 人 素 人 Ti 里 
的 第 一 个 位 置 。 显 然 ， 短 小 的 键入 才能 保证 较 高 的 效率 。 A 


随 着 插入 的 键 越 来 越 多 ， 这 个 要 求 很 难 满足 ， 较 长 的 键 秘 。 插入 之 后 键入 产生 了 
会 越 来 越 多 , 如 图 3.4.8 所 示 。 另 外 , 因为 ( 基于 均匀 性 假设 ) Eee 


数组 的 每 个 位 置 都 有 相同 的 可 能 性 被 插入 一 个 新 键 ， 长 键 图 3.4.7 线性 探测 法 中 的 键 秘 (M=64) 


簇 更 长 的 可 能 性 比 短 键 秘 更 大 ， 因 为 新 键 的 散 列 值 无 论 落 


在 簇 中 的 任何 位 置 都 会 使 徐 的 长 度 加 1 ( 甚至 更 多 ， 如 果 这 个 和 能 和 相 邻 的 能 之 间 只 有 一 个 空 元 素 相 
隔 的 话 ) 。 下 面 我 们 要 将 键 秘 的 影响 量化 来 预测 线性 探测 法 的 性 能 ， 并 使 用 这 些 信息 在 我 们 的 实现 


中 设置 适当 的 参数 值 。 





» [rr 











图 3.4.8 数组 的 使 用 模式 (2048 个 键 ， 每 行 128 个 ) 


3.4.3.3 ”线性 探测 法 的 性 能 分 析 


尽管 最 后 的 结果 的 形式 相对 简单 ， 准 确 分 析 线 性 探测 法 的 性 能 是 非常 有 难度 的 。Knuth 在 1962 


年 作出 的 以 下 推导 是 算法 分 析 史 上 的 一 个 里 程 碑 。 
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命题 M。 在 一 张大 小 为 M 并 含有 NaM 个 键 的 基于 线性 探测 的 散 列表 中 ， 基 于 假设 J]， 命 中 
和 未 命中 的 查找 所 需 的 探测 次 数 分 别 为 : 


1 1 1 1 
ee 
特别 是 当 a 约 为 1/2 时 ， 查 找 命中 所 需要 的 探测 次 数 约 为 32， 未 命中 所 需要 的 约 为 5/2。 当 w 


趋 近 于 1 时 ， 这 些 估计 值 的 精确 度 会 下 降 ， 但 不 需要 担心 这 些 情 况 ， 因 为 我 们 会 保证 散 列 表 的 
使 用 率 小 于 1/2。 


讨论 。 要 计算 平均 值 ， 首 先 要 计算 在 散 列 表 中 每 个 位 置 上 出 现 查找 未 命中 所 需要 的 探测 次 数 ， 
然后 将 所 有 探测 次 数 之 和 除 以 M。 所 有 查找 未 命中 都 至 少 需要 一 次 探测 ， 因 此 我 们 从 第 一 次 探 
测 之 后 开始 计数 。 考 虑 在 一 张 半 满 的 (ME=2N ) 线性 探测 散 列表 中 可 能 出 现 的 以 下 两 种 极端 情 
况 : 在 最 好 的 情况 下 ， 偶 数位 置 的 数组 元 素 都 是 空 的 ， 奇 数位 置 的 数组 元 素 都 是 满 的 ; 在 最 坏 
的 情况 下 ， 前 半 张 表 是 空 的 ， 后 半 张 表 是 满 的 。 键 筑 的 平均 长 度 在 两 种 情况 下 都 是 N/(2N)=1/2， 
但 未 命中 的 查找 所 项 的 探测 次 数 在 最 好 情况 下 为 1( 所 有 的 查找 都 至 少 需要 一 次 探测 ) 加 上 
(0+1+0+14…)A2N)=1/2， 在 最 坏 情况 下 为 1+(N+(N-1)+…)(2N)~N14。 将 这 段 证 明 一 般 化 可 得 
未 命中 的 查找 平均 所 需 的 比较 次 数 和 键 馈 长 度 的 平方 成 正比 。 如 果 一 个 键 簇 的 长 度 为 1:， 那 和 
(tt(I-1D+t…+2+1)/M=A(t+1Y(2M) 就 是 在 这 段 键 比 中 查找 未 命中 所 需 的 平均 探测 次 数 。 因 为 所 有 
键 饥 的 总 长 度 肯 定 为 W， 所 以 将 表 中 所 有 键 徐 所 得 的 平均 探测 次 数 相 加 可 以 得 到 ， 一 次 未 命中 
的 查找 的 平均 成 本 为 1HN(2M)+( 每 个 键 徐 的 长 度 的 平方 之 和 )， 再 除 以 2M。 因 此 ， 给 定 一 张 
散 列 表 ， 我 们 就 可 以 快速 计算 该 表 中 一 次 未 命中 查找 的 平均 成 本 《请 见 练习 3.4.21 ) 。 一 般 情 
况 下 ， 键 筑 的 形成 需要 一 个 复杂 的 动态 过 程 (也 就 是 线性 探测 算法 ) ， 很 难 分 析 并 找 出 特点 ， 
而 且 这 也 远 远 超出 了 本 书 的 讨论 范围 。 


命题 M 告诉 我 们 ( 在 假设 J 的 前 提 下 ) 当 散 列表 快 满 的 时 候 查 找 所 需 的 探测 次 数 是 巨大 的 〈 a 
越 趋 近 于 1, 由 公式 可 知 探测 的 次 数 也 越 来 越 大 ) , 但 当 使 用 率 a 小 于 1/2 时 探测 的 预计 次 数 只 在 1.5 
到 2.5 之 间 。 下 面 ， 我 们 为 此 来 考虑 动态 调整 散 列表 数组 的 大 小 
3.4.4 ”调整 数组 大 小 

我 们 可 以 使 用 第 1 章 中 


介绍 的 调整 数组 大 小 的 方法 来 
保证 散 列 表 的 使 用 率 永远 都 private void resize(int cap) 
{ 
不 会 超过 1/2。 首 先 ， 我 们 的 LinearprobingHashST<Key, Value> t; 
LinearprobingHashsT 需 要 一 t = new LinearProbingHashST<Key，Value>(cap); 
for (int 1 = 0; 1 < M; i++) 
个 新 的 构造 函数 ， 它 接受 一 个 if (keys[i] != nu1]) 
固定 的 容量 作为 参数 ( 在 算法 t.put(keys[i], vals[i]); 
keys = t.keys; 
3.6 的 构造 函数 中 加 入 一 行 代码 vals = t.vals; 
就 可 以 在 创建 数组 之 前 将 M 设 大 人 


为 给 定 的 值 ) 。 然 后 ， 我 们 需 
要 右边 给 出 的 resize() 方法 。 调整 线性 探测 散 列表 
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它 会 创建 一 个 新 的 给 定 大 小 的 LinearProbingHashsT， 保 存 原 表 中 的 keys 和 values 变量 ， 然 后 
将 原 表 中 所 有 的 键 重 新 散 列 并 插入 到 新 表 中 。 这 使 我 们 可 以 将 数组 的 长 度 加 售 。put() 方法 中 的 第 
一 条 语句 会 调用 resize() 来 保证 散 列表 最 多 为 半 满 状态 。 这 段 代码 构造 的 散 列表 比 原来 大 一 售 ， 
因此 a 的 值 就 会 减 半 。 和 其 他 需要 调整 数组 大 小 的 应 用 场景 一 样 ， 我 们 也 需要 在 delete() 方法 
的 最 后 加 上 : 

if CN > 0 && N <= M/8) resize(M/2); 
以 保证 所 使 用 的 内 存量 和 表 中 的 键 值 对 数量 的 比例 总 在 一 定 范围 之 内 。 动 态 调整 数组 大 小 可 以 为 我 
们 保证 a 不 大 于 1/2。 
3.4.4.1 拉链 法 

我 们 可 以 用 相同 的 方法 在 拉链 法 中 保持 较 短 的 链表 ( 平均 长 度 在 2 到 8 之 间 ) : 在 
resize() 中 将 LinearProbingHashST 替换 为 SeparateChainingHashST， 当 N >= M/2 时 调用 
resize(2*M)，, 并 在 delete() 中 (在 N > 0 &&N <= M/8 时 ) 调用 resize(M/2)。 对 于 拉链 法 ， 
如 果 你 能 准确 地 估计 用 例 所 需 的 散 列 表 的 大 小 N， 调 整数 组 的 工作 并 不 是 必需 的 ， 只 需要 根据 查找 
耗 时 和 ( 1+N/M) 成 正比 来 选取 一 个 适当 的 M 即 可 。 而 对 于 线性 探测 法 ， 调 整数 组 的 大 小 是 必需 的 ， 
因为 当 用 例 插入 的 键 值 对 数量 超过 预期 时 它 的 查找 时 间 不 仅 会 变 得 非常 长 ， 还 会 在 散 列表 被 填 满 时 
进入 无 限 循环 。 474| 
3.4.4.2 均 摊 分 析 

从 理论 角度 来 说 ， 当 我 们 动态 调整 数组 大 小 时 ， 需 要 找 出 均 摊 成 本 的 上 限 ， 因 为 我 们 知道 使 散 
列表 长 度 加 们 的 插入 操作 需要 大 量 的 探测 。 














命题 No。 假设 一 张 散 列表 能 够 自己 调整 数组 的 大 小 ,初始 为 空 。 基于 假设 ], 执行 任意 顺序 的 1 次 查找 、 
插入 和 删除 操作 所 需 的 时 间 和 1 成 正比 ， 所 使 用 的 内 存量 总 是 在 表 中 的 键 的 总 数 的 常数 因子 范围 内 。 


证 明 。 对 于 拉链 法 和 线性 探测 法 ， 结 合 命题 K 和 命题 M 可 知 ， 这 个 命题 只 是 对 我 们 在 第 1 章 
中 第 一 次 讨论 过 的 数组 增长 的 均 排 分 析 的 简单 重复 而 已 。 


如 图 3.4.9 和 图 3.4.10 所 示 ， 在 FrequencyCounter 的 例子 中 ， 累 计 平均 的 曲线 很 好 地 显示 出 
散 列 表 中 调整 数组 大 小 的 动态 行为 。 每 次 数组 长 度 加 倍 之 后 ， 累 计 平 均值 都 会 增加 约 1， 因 为 表 中 
的 每 个 键 都 需要 重新 计算 散 列 值 。 然 后 该 值 慢 慢 下 降 ， 因 为 半数 左右 的 键 被 重新 分 配 到 了 表 中 的 不 
同位 置 。 随 着 表 中 的 键 的 增加 ， 该 值 下 降 的 速度 也 慢 慢 降低 。 
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图 3.4.9 使 用 能 够 自动 调整 数组 大 小 的 SeparateChainingHashsT， 运 行 java FrequencyCounter 
8< tale.txt 的 成 本 
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图 3.4.10 使 用 能 够 自动 调整 数组 大 小 的 LinearProbingHashST， 运 行 java FrequencyCounter 8 < 
tale.txt 的 成 本 


3.4.5 ”内 存 使 用 


我 们 说 过 ， 如 果 我 们 希望 将 散 列表 的 性 能 调整 到 最 优 ， 理 解 它 的 内 存 使 用 情况 是 非常 重要 的 。 
虽然 这 种 调整 是 专家 们 的 事 儿 ， 但 通过 估计 引用 的 使 用 数量 来 粗略 计算 所 需 的 内 存量 仍然 是 很 好 的 
练习 。 方 法 如 下 ; 除了 存储 键 和 值 所 需 的 空间 之 外 ， 我 们 实现 的 SeparateChainingHashST 保存 
了 M 个 SequentialSearchST 对 象 和 它们 的 引用 。 每 个 SequentialSearchST 对 象 需要 16 字 节 ， 
它 的 每 个 引用 需要 8 字 节 。 另 外 还 有 N 个 node 对 象 ， 每 个 都 需要 24 字 节 以 及 3 个 引用 ( key、 
value 和 next ) ， 比 二 叉 查 找 树 的 每 个 结 点 还 多 需要 一 个 引用 。 在 使 用 动态 调整 数组 大 小 来 保证 
表 的 使 用 率 在 1/8 到 1/2 之 间 的 情况 下 ， 线 性 探测 使 用 4N 到 16N 个 引用 。 可 以 看 出 ,根据 内 存 用 
量 来 选择 散 列表 的 实现 并 不 容易 。 对 于 原始 数据 类 型 ， 这 些 计算 又 有 所 不 同 ( 请 见 练习 3.4.24 ) 。 

符号 表 的 内 存 使 用 如 表 3.4.2 所 示 。 


表 3.4.2 符号 表 的 内 存 使 用 





方法 人 个 元 素 所 需 的 内 存 〈 引 用 类 型 ) 
基于 拉链 法 的 散 列表 ~48N+32M 
基于 线性 探测 的 散 列表 在 -32N 和 -~128N 之 间 
各 种 二 叉 查找 树 ~56N 


自 计算 机 发 展 的 伊始 ， 研 究 人 员 就 研究 了 ( 并 且 现 在 仍 在 继续 研究 ) 散 列表 并 找到 了 很 多 方法 
来 改进 我 们 所 讨论 过 的 几 种 基本 算法 。 你 能 找到 大 量 关 于 这 个 主题 的 文献 。 大 多 数 改进 都 能 降低 时 
间 - 空间 的 曲线 : 在 查找 耗 时 相同 的 情况 下 使 用 更 少 的 空间 ， 或 使 在 使 用 相同 空间 的 情况 下 进行 更 
快 的 查找 。 其 他 方法 包括 提供 更 好 的 性 能 保证 ， 如 最 坏 情况 下 的 查找 成 本 ; 改进 散 列 函数 的 设计 等 。 
我 们 会 在 练习 中 讨论 其 中 的 部 分 方法 。 

拉链 法 和 线性 探测 法 的 详细 比较 取决 于 实现 的 细节 和 用 例 对 空间 和 时 间 的 要 求 。 即 使 基于 性 能 
考虑 ， 选 择 拉链 法 而 非 线性 探测 法 也 不 一 定 是 合理 的 ( 请 见 练习 3.5.31 ) 。 在 实践 中 ， 两 种 方法 的 
性 能 差别 主要 是 因为 拉链 法 为 每 个 键 值 对 都 分 配 了 一 小 块 内 存 而 线性 探测 则 为 整 张 表 使 用 了 两 个 很 
大 的 数组 。 对 于 非常 大 的 散 列表 ， 这 些 做 法 对 内 存 管理 系统 的 要 求 也 很 不 相同 。 在 现代 系统 中 ， 在 
性 能 优先 的 情景 下 ， 最 好 由 专家 去 把 握 这 种 平衡 。 
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有 了 这 些 假设 ， 期 望 散 列表 能 够 支持 和 数组 大 小 无 关 的 常数 级 别 的 查找 和 插入 操作 是 可 能 的 。 
对 于 任意 的 符号 表 实 现 ,这 个 期 望都 是 理论 上 的 最 优 性 能 。 但 散 列 表 并 非 包 治 百 病 的 灵丹妙药 , 因为， 

口 每 种 类 型 的 键 都 需要 一 个 优秀 的 散 列 函数 ; 

口 性 能 保证 来 自 于 散 列 函数 的 质量 ; 

口 散 列 函数 的 计算 可 能 复杂 而 且 昂 贵 ; 

口 难以 支持 有 序 性 相关 的 符号 表 操 作 。 

在 考察 了 这 些 基本 问题 之 后 ， 我 们 会 在 3.5 节 的 开头 将 散 列表 和 我 们 学 习 过 的 其 他 符号 表 的 实 





现 方法 进行 比较 。 A 
图 答 用 
问 Java 的 Integer、Double 和 Long 类 型 的 hashCode() 方法 是 如 何 实现 的 ? 
答 ” Integer 类 型 会 直接 返回 该 整数 的 32 位 值 , 对 于 Double 和 Long 类 型 ， primesCk] 
Java 会 返回 值 的 机 器 表示 的 前 32 位 和 后 32 位 异 或 的 结果 。 这 些 方法 。“ [人 
可 能 不 够 随机 ， 但 它们 的 确 能 够 将 值 散 列 。 pe a 
问 ” 当 能 够 动态 调整 数组 大 小 时 ， 散 列表 的 大 小 总 是 2 的 守 ， 这 不 是 个 7 1 127 
题 吗 ? 这 样 hash() 方法 就 只 使 用 了 hashCode() 返回 值 的 低位 。 8 5 251 
答 是 的 ， 这 个 问题 在 默认 实现 中 特别 明显 。 解 决 这 个 问题 的 一 各 方法 是 19 3 cet 
先 用 一 个 大 于 M 的 素数 来 散 列 键 值 对 ， 例 如 : 11 9 2039 
private int hash(Key x) 12 3 4093 
13 1 8191 
int t = x.hashCode() & 0x7fffffff; 14 3 16381 
if (1gM < 26) t = t % primes[1gM+5]; 15 19 32749 
return t % M; 16 15 65521 
} 17 1 131071 
这 段 代码 假设 我 们 使 用 了 一 个 变量 lgM， 它 的 值 等 于 lgM ( 直接 初始 二 2 
化 为 该 值 ， 并 在 将 数组 长 度 加 售 或 者 减 半 时 增 大 或 者 减 小 它 ) , 以 20 3 1048573 
及 一 个 数组 primes[] ， 其 中 含有 大 于 各 个 2 的 宕 的 最 小 素数 (请 见 21 9 2097143 
右 表 ”) 。 代 码 中 的 常数 5 是 随意 取 的 一 个 值 一 我 们 希望 第 一 次 到 ”22 ,3 a 
余 操作 ( % ) 能 够 将 所 有 值 散 列 在 小 于 该 素数 的 范围 之 内 ， 而 第 二 次 。 24 3 16777213 


取 余 操作 则 将 其 中 的 5 个 值 映射 到 小 于 M 的 所 有 值 中 。 请 注意 , 对 ?5 39 9 


26 5 67108859 

于 很 大 的 M 这 是 没有 意义 的 。 27 39 134217689 

问 我 忘记 了 ， 为 什么 不 将 hash(x) 实现 为 x.hashCode() % M? 4 268435399 
答 。 散 列 值 必须 在 0 到 M-1 之 间 , 而 在 Java 中 ,到 余 (%) 的 结果 可 能 是 负数 。 29 32。 ,536870909 
问 那 为 什么 不 将 hash(x) 实现 为 Math.abs(x.hashCode()) % M? 31 1 2147483647 





答 问 得 好 ， 不 幸 的 是 对 于 最 大 的 整数 Math.abs() 会 返回 一 个 负 值 。 对 将 散 列表 大 小 设 为 素数 478| 
于 许多 典型 情况 ， 这 种 溢出 不 会 造成 什么 问题 ， 但 对 于 散 列表 这 可 能 
使 你 的 程序 在 几 十 亿 次 插入 之 后 崩溃 ， 这 很 难说 。 例 如 ，Java 中 字符 串 "polygeneTubricants" 的 
散 列 值 为 -2"。 找 出 散 列 值 为 这 个 数 ( 以 及 为 0 ) 的 其 他 字符 串 已 经 变 成 了 一 种 有 趣 的 算法 读 题 。 











全 这 里 似乎 和 表 的 内 容 不 相符 ， 表 中 prime [k] 的 值 是 小 于 2' 的 最 大 素数 。- 译 者 注 
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问 





479| 











在 算法 3.5 中 为 什么 使 用 SequentialSearchST 而 非 BinarySearchST 或 者 RedBlackBST? 

一 般 来 说 ， 我 们 希望 散 列 到 每 个 索引 值 上 的 键 越 少 越 好 ， 而 对 于 小 规模 符号 表 初 级 实现 的 性 能 一 般 
更 好 。 在 某 些 情况 下 , 使 用 这 些 复杂 的 实现 也 许 能 够 稍稍 将 性 能 提高 , 但 最 好 让 专家 来 进行 这 种 调 优 。 
散 列表 的 查找 比 红 黑 树 更 快 吗 ? 

这 取决 于 键 的 类 型 ， 它 决定 了 hashCode() 的 计算 成 本 是 否 大 于 compareTo0 的 比较 成 本 。 对 于 常 
见 的 键 类 型 以 及 Java 的 默认 实现 ， 这 两 者 的 成 本 是 近似 的 ， 因 此 散 列 表 会 比 红 黑 树 快 得 多 ， 因 为 它 
所 需 的 操作 次 数 是 固定 的 。 但 需要 注意 的 是 , 如 果 要 进行 有 序 性 相关 的 操作 , 这 个 问题 就 没有 意义 了 ， 
因为 散 列表 无 法 高 效 地 支持 这 些 操作 。 进 一 步 的 讨论 请 见 3.5 节 。 

为 什么 不 能 让 基于 线性 探测 的 散 列 表 充 满 四 分 之 三 ? 

没什么 特别 的 原因 。 你 可 以 选择 任意 的 a 值 并 用 命题 M 来 估计 相应 的 查找 成 本 。 对 于 a=3/4， 查 
找 命中 的 平均 成 本 为 25， 未 命中 的 为 8.5。 但 如 果 你 允许 a 增长 到 7/8， 查 找 未 命中 的 平均 成 本 就 
会 达到 32.5， 这 可 能 已 经 超出 了 你 的 承受 能 力 。 随 着 a 趋 近 于 1， 命 题 M 得 出 的 估计 值 的 准确 度 会 
下 降 ， 但 你 不 应 该 使 散 列表 的 占有 率 达到 那 种 程度 。 


图 练 


3.4.1 


将 键 E A S Y Q UT I 0 N 依次 插入 一 张 初始 为 空 且 含 有 M=5 条 链表 的 基于 拉链 法 的 散 列表 中 。 
使 用 散 列 函数 11 k % M 将 第 k 个 字母 散 列 到 某 个 数组 索引 上 。 


3.4.2 重新 实现 SeparateChainingHashST， 直 接 使 用 SequentialSearchsT 中 链表 部 分 的 代码 。 
3.4.3 ”修改 你 为 上 一 道 练习 给 出 的 实现 ， 为 每 个 键 值 对 添加 一 个 整 型 变量 ， 将 其 值 设 为 插入 该 键 值 对 时 


散 列表 中 元 素 的 数量 。 实 现 一 个 方法 ， 将 该 变量 的 值 大 于 给 定 整数 k 的 键 ( 及 其 相应 的 值 ) 全 部 
删除 。 注 意 : 这 个 额外 的 功能 在 为 编译 器 实现 符号 表 时 很 有 用 。 


3.4.4 使 用 散 列 函 数 (a * k) % M 将 S E A R C H X M PL 中 的 第 k 个 键 散 列 为 一 个 数组 索引 。 编 写 


一 段 程序 找 出 a 和 最 小 的 M， 使 得 该 散 列 函 数 得 到 的 每 个 索引 都 不 相同 ( 没有 碰撞 ) 。 这 样 的 函 
数 也 被 称 为 完美 散 列 函 数 。 


3.4.5 下 面 这 段 hashCode() 的 实现 合法 吗 ? 


public int hashCode() 
{ return 17; } 


如 果 合 法 ， 请 描述 它 的 使 用 效果 ， 和 否则 请 解释 原因 。 


3.4.6 ”假设 键 为 :位 整数 。 对 于 一 个 使 用 素数 M 的 除 留 余数 法 的 散 列 函 数 ， 请 证 明 对 于 键 的 每 一 位 ， 都 


存 不 同 的 两 个 键 ， 它 们 的 散 列 值 只 有 该 位 不 同 。 


3.4.7 考虑 对 于 整 型 的 键 将 除 留 余数 法 的 散 列 函数 实现 为 (a * k) % M, 其 中 a 为 一 个 任意 的 固定 素数 。 


这 样 是 否 足 以 利用 键 的 所 有 位 使 得 我 们 可 以 使 用 一 个 非 素数 M 了 呢 ? 


3.4.8 对 于 NI10、19 、10、10'、10 和 10'， 请 估计 将 N 个 键 插入 一 张 SeparateChainingHashST 的 散 








480| 


列表 后 还 剩 多 少 空 链表 ? 提示 : 参考 练习 2.5.31。 


3.4.9 为 SeparateChainingHashST 实现 一 个 即时 的 delete() 方法 。 








3.4.10 将 键 E A S Y Q UT I 0 N 依次 插入 一 张 初始 为 空 且 大 小 为 M=16 的 基于 线性 探测 法 的 散 列 


表 中 。 使 用 散 列 函 数 11 k % M 将 第 大 个 字母 散 列 到 某 个 数组 索引 上 。 对 于 M=10 将 本 题 重 新 完 
成 一 融 。 
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3.4.11 将 键 EASYQUTION 依次 插入 一 张 初始 为 空 大 小 为 M=4 的 基于 线性 探测 法 的 散 列表 中 ， 
数组 只 要 达到 半 满 即 自动 将 K 长 度 加 倍 。 使 用 散 列 函数 11 k % M 将 第 个 字母 散 列 到 某 个 数组 
索引 上 。 给 出 得 到 的 散 列 表 的 内 容 。 

3.4.12 设 有 键 A 到 G， 散 列 值 如 下 所 示 。 将 它们 按照 一 定 顺序 插入 到 一 张 初始 为 空 大 小 为 7 的 基于 线 
性 探测 的 散 列 表 中 ( 这 里 数组 的 大 小 不 会 动态 调整 ) 。 下 面 哪个 选项 是 不 可 能 由 插入 这 些 键 产 
生 的 ? 给 出 这 些 键 在 构造 散 列表 时 可 能 所 需 的 最 大 和 最 小 探测 次 数 ， 并 给 出 相应 的 插入 顺序 来 
证 明 你 的 答案 。 

EFGACB 

CEBGFD 

BDFACE 

CGBADE 

F 

G 





GBDAC 
ECADB 


"Trprogp 
TMA>D 


键 A B C D E F 
散 列 值 (M=7) 0 0 4 4 4 3 





3.4.13 在 下 面 哪些 情况 中 基于 线性 探测 的 散 列 表 中 的 一 次 随机 的 命中 查找 所 需 的 时 间 是 线性 的 ? 
a. 所 有 键 均 被 散 列 到 同一 个 索引 上 
b. 所 有 键 均 被 散 列 到 不 同 的 索引 上 
c. 所 有 键 均 被 散 列 到 同一 个 偶数 索引 上 
d. 所 有 键 均 被 散 列 到 不 同 的 偶数 索引 上 

3.4.14 ”对 于 未 命中 的 查找 回答 上 一 道 练习 的 问题 ， 假 设 被 查找 的 键 被 散 列 到 表 中 任意 位 置 的 可 能 性 
均等 。 

3.4.15 “在 最 坏 情况 下 ， 向 一 张 初始 为 空 、 基 于 线性 探测 法 并 能 够 动态 调整 数组 大 小 的 散 列 表 中 插入 入 
个 键 需 要 多 少 次 比较 ? 

3.4.16 ”假设 有 一 张大 小 为 10* 的 基于 线性 探测 的 散 列表 已 经 半 满 了 ,被 占用 的 元 素 随 机 分 布 。 请 估计 所 ”|[481 
有 索引 值 中 能 够 被 100 整除 的 位 置 都 被 占用 的 概率 。 

3.4.17 使 用 3.4.3.1 节 的 deleteQ 方法 从 标准 索引 测试 用 例 使 用 的 LinearProbingHashST 中 删除 键 C 并 
给 出 结果 散 列表 的 内 容 。 

3.4.18 为 SeparateChainingHashST 添加 一 个 构造 函数 ， 使 用 例 能 够 指定 查找 操作 可 以 接受 的 在 链表 
中 进行 的 平均 探测 次 数 。 动 态 调整 数组 的 大 小 以 保证 链表 的 平均 长 度 小 于 该 值 ， 并 使 用 答疑 中 
所 述 的 方法 来 保证 hash() 方法 的 系数 总 是 素数 。 

3.4.19 为 SeparateChainingHashST 和 LinearProbingHashST 实现 keys() 方法 。 

3.4.20 为 LinearProbingHashST 添加 一 个 方法 来 计算 一 次 命中 查找 的 平均 成 本 ,假设 表 中 每 个 键 被 查 
找 的 可 能 性 相同 。 

3.4.21 为 LinearProbingHashST 添加 一 个 方法 来 计算 一 次 未 命中 查找 的 平均 成 本 ,假设 使 用 了 一 个 随 
机 的 散 列 函数 。 请 注意 : 要 解决 这 个 问题 并 不 一 定 要 计算 所 有 的 散 列 函数 。 

3.4.22 ”为 下 列 数据 类 型 实现 hashCode() 方法 : Point2D、Interval、Interval2D 和 Date。 

3.4.23 ”对 于 字符 串 类 型 的 键 ， 考 虑 R = 256 和 M = 255 的 除 留 余数 法 的 散 列 函 数 。 请 证 明 这 是 一 个 粳 
糕 的 选择 ， 因 为 任意 排列 的 字母 所 得 字符 串 的 散 列 值 均 相同 。 
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3.4.24 


对 于 double 类 型 ， 分 析 拉 链 法 、 线 性 探测 法 和 二 叉 查 找 树 的 内 存 使 用 情况 。 将 结果 整理 成 类 似 
于 表 3.4.2 的 表格 。 
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3.4.25 


3.4.26 


3.4.27 


3.4.28 


3.4.29 
3.4.30 


3.4.31 


3.4.32 


散 列 值 的 缓存 。 修 改 3.4.19 节 的 Transaction 类 并 维护 一 个 变量 hash， 在 hashCode() 方法 第 
一 次 为 一 个 对 象 计算 散 列 值 后 将 值 保存 在 hash 中 , 这 样 随后 的 调用 就 不 必 重 新 计算 了 。 请 注意 ; 
这 种 方法 仅 适 用 于 不 可 变 的 数据 类 型 。 
线性 探测 法 中 的 延 时 删除 。 为 LinearProbingHashST 添加 一 个 delete() 方法 ， 在 删除 一 个 键 
值 对 时 将 其 值 设 为 nu11， 并 在 调用 resize0) 方法 时 将 键 值 对 从 表 中 删除 。 这 种 方法 的 主要 难 
点 在 于 决定 何 时 应 该 调用 resize() 方法 。 请 注意 : 如 果 后 来 的 putO 方法 为 该 键 指定 了 一 个 
新 的 值 ， 你 应 该 用 新 值 将 nu11 覆盖 掉 。 你 的 程序 在 决定 扩张 或 者 收缩 数组 时 不 但 要 考虑 到 数组 
的 空 元 素 ， 也 要 考虑 到 这 种 死 拉 的 元 素 。 
二 次 探测 。 修 改 SeparateChainingHashST， 进 行 二 次 散 列 并 选择 两 条 链表 中 的 较 短 者 。 将 键 
EA SY QUTI ON 依次 插入 一 张 初始 为 空 且 大 小 为 M=3 的 基于 拉链 法 的 散 列表 中 ， 以 11 
k % M 作为 第 一 个 散 列 函数 ，17 k % M 作 为 第 二 个 散 列 函 数 来 将 第 上 个 字母 散 列 到 某 个 数组 索 
引 上 。 给 出 插 人 过 程 的 轨迹 以 及 随机 的 命中 查找 和 未 命中 查找 在 该 符号 表 中 所 需 的 平均 探测 次 
数 。 
二 次 散 列 。 修 改 LinearProbingHashST， 进 行 二 次 散 列 以 得 到 探测 起 始点 。 确 切 地 说 ， 是 将 (所 
有 的 ) Ci + 1) % M 圭 换 为 (i + k) % M, 其 中 k 是 一 个 非 零 、 和 M 互 质 且 和 键 相关 的 整数 。 提 示 : 
可 以 令 M 为 素数 来 满足 互 质 的 条 件 。 使 用 上 一 道 练习 中 给 出 的 两 个 散 列 丽 数 , 将 键 EA SYQU 
T I 0 N 依次 插入 一 张 初始 为 空 且 大 小 为 M=11 的 基于 线性 探测 的 散 列表 中 。 给 出 插入 过 程 的 轨 
迹 以 及 随机 的 命中 查找 和 未 命中 查找 所 需 的 平均 探测 次 数 。 
删除 操作 。 分 别 为 前 两 题 中 所 述 的 散 列表 实现 即时 的 delete() 方法 。 
卡 方 值 (chi 一 square statistic ) 。 为 SeparateChainingHashST 添加 一 个 方法 来 计算 散 列表 的 
X*。 对 于 大 小 为 M 并 含有 入 个 元 素 的 散 列表 ， 这 个 值 的 定义 为 : 

X= (MINKONIMY + -NIMY AH +f NIMD) 
其 中 , 为 散 列 值 为 ;的 键 的 数量 。 这 个 统计 数据 是 检测 我 们 的 散 列 函 数 产生 的 随机 值 是 否 
满足 假设 的 一 种 方法 。 如 果 满 足 ， 对 于 N>cM， 这 个 值 落 在 M - VM 和 M+ VM 之 间 的 概率 
为 1 - le。 
Cuckoo 散 列 函数 。 实 现 一 个 符号 表 ， 在 其 中 维护 两 张 散 列表 和 两 个 散 列 函 数 。 一 个 给 定 的 键 只 能 
存在 于 一 张 散 列表 之 中 。 在 插入 一 个 新 键 时 ， 在 其 中 一 张 散 列表 中 插入 该 键 。 如 果 这 张 表 中 该 键 
的 位 置 已 经 被 占用 了 ,就 用 新 键 替代 老 键 并 将 老 键 插入 到 另 一 张 散 列 表 中 ( 如 果 在 这 张 表 中 该 键 
的 位 置 也 被 占用 了 ， 那 么 就 将 这 个 占用 者 重新 插入 第 一 张 散 列 表 ， 把 位 置 腾 给 被 插入 的 键 ) ， 如 
此 循环 往复 。 动 态 调整 数组 大 小 以 保持 两 张 表 都 不 到 半 满 。 这 种 实现 中 查找 所 需 的 比较 次 数 在 最 
坏 情况 下 是 一 个 常数 ， 插 人 操作 所 需 的 时 间 在 均 捧 后 也 是 常数 。 
散 列 攻击 。 找 出 2 个 hashCodeQ 方法 返回 值 均 相同 且 长 度 均 为 2" 的 字符 串 。 假 设 String 类 
型 的 hashCodeQ 方法 的 实现 如 下 : 
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public int hashCode() 


int hash = 0; 

for (int 1 = 0; i < lengthO; i ++) 
hash = (hash * 31) + charAt(i); 

return hash; 


重要 提示 : Aa 和 BB 的 散 列 值 相同 。 
3.4.33 ” 模 料 的 散 列 函 数 。 考 虑 Java 的 早期 版 本 中 String 类 型 的 hashCode() 方法 的 实现 ， 如 下 所 示 : 


public int hashCode() 
{ 


int hash = 0; 

int skip = Math.max(1, length()/8); 

for (int 1 = 0; i < lengthO; 1 += skip) 
hash = (hash * 37) + charAt(i); 

return hash; 














说 明 你 认为 设计 者 选择 这 种 实现 的 原因 以 及 为 什么 它 被 替换 成 了 上 一 道 练习 中 的 实现 。 484| 
图 实验 是 
3.4.34 散 列 的 成 本 。 用 各 种 常见 的 数据 类 型 进行 实验 以 得 到 hashQ 方法 和 compareTo() 方法 的 耗 时 
比 的 经 验 数据 。 


3.4.35 卡 方 检验 。 使 用 你 为 练习 3.4.30 给 出 的 答案 验证 常用 数据 类 型 的 散 列 函 数 产生 的 值 是 否 随机 。 

3.4.36 链表 长 度 的 范围 。 编 号 一 段 程序 ， 向 一 张 长 度 为 N100 的 基于 拉链 法 的 散 列表 中 插入 N 个 随机 
的 int 键 ， 找 出 表 中 最 长 和 最 短 的 链表 的 长 度 ， 其 中 N=10?、10'、10; 和 105。 

3.4.37 ”混合 使 用 。 用 实验 研究 在 SeparateChainingHashST 中 使 用 正 RedBiackBST 代替 SequentialSearchST 
来 处 理 碰撞 的 性 能 。 这 种 方案 的 优点 是 即使 散 列 函数 很 糟糕 它 仍然 能 够 保证 对 数 级 别 的 性 能 ， 
缺点 是 需要 维护 两 种 不 同 的 符号 表 实 现 。 实 际 效果 如 何 呢 ? 

3.4.38 拉链 法 的 分 布 。 编 写 一 段 程序 ， 向 一 张大 小 为 10; 的 基于 线性 探测 法 的 散 列表 中 插入 10; 个 小 于 
10 的 随机 非 负 整数 并 在 每 10 次 插 人 后 打印 出 当前 探测 的 总 次 数 。 讨 论 你 的 结果 在 何 种 程度 上 
验证 了 命题 K。 了 

3.4.39 线性 探测 法 的 分 布 。 向 一 张大 小 为 N 的 基于 线性 探测 法 的 散 列表 中 插入 N/2 个 随机 非 负 整数 并 
根据 表 中 的 键 秘 计算 一 次 未 命中 查找 的 平均 成 本 ， 其 中 N=10; 、10*、107 和 10。 讨 论 你 的 结果 
在 何 种 程度 上 验证 了 命题 M。 

3.4.40 绘图 。 改进 LinearProbingHashST 和 SeparateChainingHashsT 的 实现 ， 使 之 绘 出 和 正文 中 
类 似 的 图 表 。 

3.4.41 二 次 探测 。 用 实验 研究 来 评估 二 次 探测 法 的 效果 ( 请 见 练习 3.4.27) 。 

3.4.42 二 次 散 列 。 用 实验 研究 来 评估 二 次 散 列 法 的 效果 ( 请 见 练习 3.4.28 ) 。 

3.4.43 停车 问题 (D, Knuth)。 用 实验 研究 来 验证 一 个 猜想 : 向 一 张大 小 为 M 的 基于 线性 探测 法 的 散 列 
表 中 插入 M 个 随机 键 所 需 的 比较 次 数 为 ~ cM”， 其 中 c= Vr/3 。 485 

















全 这 个 题目 和 拉链 无 关 ， 是 原 书 的 bug。 一 一 译 者 注 
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3.5 应 用 


在 计算 机 发 展 的 早期 ， 符 号 表 帮 助 程序 员 从 使 用 机 器 语言 的 数字 地 址 进化 到 在 汇编 语言 中 使 用 符 
号 名 称 ; 在 现代 应 用 程序 中 ， 符 号 名 称 的 含义 能 够 通行 于 跨越 全 球 的 计算 机 网 络 。 快 速 查 找 算法 曾经 
并 继续 在 计算 机 领域 中 扮演 着 重要 角色 。 符 号 表 的 现代 应 用 包括 科学 数据 的 组 织 ， 例 如 在 基因 组 数据 
中 寻找 分 子 标 记 或 模式 从 而 绘制 全 基因 组 图 谱 ; 网 络 信息 的 组 织 ， 从 搜索 在 线 贸易 到 数字 图 书馆 ; 以 
及 互联 网 基础 构架 的 实现 ， 例 如 包 在 网 络 结 点 中 的 路 由 、 共 享 文件 系统 和 流 媒体 等 。 高 效 的 查找 算法 
确保 了 这 些 以 及 无 数 其 他 重要 的 应 用 程序 成 为 可 能 。 在 本 节 中 我 们 会 考察 几 个 有 代表 性 的 例子 。 

口 能 够 快速 并 灵活 地 从 文件 中 提取 由 逗号 分 隔 的 信息 的 一 个 字典 程序 和 一 个 索引 程序 。 豆 号 分 

隔 的 格式 〈 及 类 似 格式 ) 常用 于 存储 网 络 信息 。 

口 为 一 组 文件 构建 着 向 索引 的 一 个 程序 。 

口 一 个 表示 稀 琉 矩 阵 的 数据 类 型 。 它 用 符号 表 处 理 的 问题 规模 能 够 远 远大 于 这 种 数据 类 型 的 标准 实现 。 

在 第 6 章 中 ,我 们 会 学 习 一 种 适合 于 数据 库 或 者 文件 系统 的 符号 表 ， 它 能 够 保存 的 数据 量 超过 
你 的 想象 。 

符号 表 在 本 书 其 他 章节 的 算法 中 也 会 起 到 关键 的 作用 。 例 如 ， 我 们 会 使 用 符号 表 来 表示 图 (第 
4 章 ) 以 及 处 理 字符 串 (第 5 章 ) 。 

在 本 章 中 我 们 已 经 看 到 ， 实 现 能 够 快速 进行 各 种 操作 的 符号 表 是 一 项 很 有 挑战 性 的 任务 。 另 一 
方面 ， 我 们 学 习 过 的 实现 都 经 过 了 仔细 研究 ， 应 用 广泛 并 且 在 许多 环境 中 都 可 用 ( 包括 Java 的 标准 
库 ) 。 从 现在 开始 ， 符 号 表 就 将 成 为 你 的 编程 工具 箱 中 的 一 件 重要 武器 。 


3.5.1 我 应 该 使 用 符号 表 的 哪 种 实现 


表 3.5.1 总 结 了 由 本 章 中 多 个 命题 和 性 质 得 到 的 各 种 符号 表 算法 的 性 能 特点 〈 散 列表 的 最 坏 情 
况 除外 ， 它 的 结果 来 自 于 研究 文献 并 且 也 不 太 可 能 在 实际 应 用 中 遇 到 ) 。 从 表 中 显然 可 以 知道 ， 对 
于 典型 的 应 用 程序 ， 应 该 在 散 列 表 和 二 叉 查 找 树 之 间 进 行 选择 。 

相对 二 又 查找 树 ， 散 列表 的 优点 在 于 代码 更 简单 ， 且 查找 时 间 最 优 ( 常数 级 别 ， 只 要 键 的 数据 
类 型 是 标准 的 或 者 简单 到 我 们 可 以 为 它 写 出 满足 ( 或 者 近似 满足 ) 均 匀 性 假设 的 高 效 散 列 函数 即 可 )。 
二 叉 查 找 树 相对 于 散 列表 的 优点 在 于 抽象 结构 更 简单 ( 不 需要 设计 散 列 函 数 ) ， 红 黑 树 可 以 保证 最 
坏 情况 下 的 性 能 且 它 能 够 支持 的 操作 更 多 ( 如 排名 、 选 择 、 排 序 和 范围 查找 ) 。 大 多 数 程序 员 的 第 
一 选择 都 是 散 列表 ， 在 其 他 因素 更 重要 时 才 会 选择 红 黑 树 。 在 第 5 章 中 我 们 会 遇 到 这 个 “第 一 选择 ” 
的 例外 : 当 键 都 是 长 字符 串 时 ， 我 们 可 以 构造 出 比 红 黑 树 更 灵活 而 又 比 散 列表 更 高 效 的 数据 结构 。 


表 3.5.1 各 种 符号 表 实现 的 渐进 性 能 的 总 结 


最 款 情况 下 的 运行 时 间 的 增 | 平均 情况 下 的 运行 时 间 的 增 内 存 使 用 
算法 数据 结构 ) 。 | 长 数量 级 〈N 次 插入 之 后 ) | 长 数量 级 N 次 插入 之 后 ) | 。 关键 接口 












( 字 节 ) 
硕 序 在 潭 (无 序 链表 ) 2 equals0O 48N 
二 分 查找 (有 序数 组 ) compareToC | 16N 
二 叉 树 查找 ( 二 叉 查 找 树 ) \. 上 compareTo() | 64N 
2.3 树 查 找 ( 红 黑 树 ) : 4 compareToC | 64N 
拉链 法 (链表 数组 ) qualsd) 48N+64M 


hashCodeO) 


了 equals() 在 32N 和 
线性 探测 法 “ 并 行 数组 ) > hashCode() | 128N 之 间 


站 需要 均匀 并 竹 立 的 数列 函 教 。 
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我 们 的 符号 表 实 现 已 经 可 以 广泛 应 用 于 各 种 应 用 程序 ， 但 经 过 简单 的 修改 后 这 些 算法 还 可 以 适 
应 并 支持 其 他 一 些 使 用 广泛 的 场景 ， 有 必要 在 这 里 提 一 下 。 
3.5.1.1 原始 数据 类 型 


假设 我 们 有 一 张 符号 表 ， 其 中 整 型 的 键 对 应 着 浮 点 型 的 。 标准 实现 数据 存 傅 在 Key 和 和 














值 。 如 果 使 用 我 们 的 标准 实现 ， 键 和 值 会 被 储存 在 Integer 和 Value 对 象 中 
Double 类 中 , 因此 我 们 需要 两 个 额外 的 引用 来 访问 每 个 键 值 对 。 ”站 个 
如 果 应 用 程序 只 会 使 用 几 千 个 键 进行 几 千 次 查找 ， 那 么 这 些 引 加 

用 可 能 没什么 问题 。 但 如 果 是 对 几 十 亿 个 键 进行 几 十 亿 次 查找 ， 人 ~ 

















那么 这 些 引用 就 会 造成 巨大 的 额外 开销 。 使 用 原始 数据 类 型 代 一 
蔡 Key 类 型 可 以 为 每 个 键 值 对 节省 一 个 引用 。 当 键 的 值 也 是 原 
始 数据 类 型 时 我 们 又 可 以 节约 另外 一 个 引用 。 图 3.5.1 显示 了 在 有 
拉链 法 中 使 用 原始 数据 类 型 的 情况 ， 这 种 交换 也 适用 于 符号 表 链表 结 点 中 
的 其 他 实现 。 对 于 性 能 优先 的 应 用 程序 ， 这 种 改进 并 不 困难 并 
且 值得 一 试 (请 见 练习 3.5.4) 。 上 
3.5.1.2 重复 键 

符号 表 的 实现 有 时 需要 专门 考虑 重复 键 的 可 能 性 。 许 多 应 
用 都 希望 能 够 为 同一 个 键 绑 定 多 个 值 。 例 如 在 一 个 交易 处 理 系 。 图 35.1 拉链 法 的 内 存 使 用 情况 
统 中 ,多 笔 交易 的 客户 属性 都 是 相同 的 。 符 号 表 不 允许 重复 键 ， 
因此 用 例 只 能 自己 管理 重复 键 。 本 节 稍 后 我 们 会 遇 到 一 个 这 样 的 示例 程序 。 我 们 可 以 考虑 在 实现 中 
允许 数据 结构 保存 重复 的 键 值 对 ， 并 在 查找 时 返回 给 定 的 键 所 对 应 的 任意 值 之 一 。 我 们 也 可 以 加 入 
一 个 方法 来 返回 给 定 的 键 对 应 的 所 有 值 。 修 改 我 们 实现 的 二 叉 查找 树 和 散 列 表 来 在 数据 结构 中 保存 
重复 的 键 并 不 困难 。 修 改 红 黑 树 可 能 会 稍 有 挑战 〈 请 见 练习 3.5.9 和 练习 3.5.10 ) 。 这 种 实现 在 许多 
文献 中 都 可 以 找到 (包括 本 书 以 前 的 版 本 ) 。 
3.5.1.3 ”Java 标准 库 

Java 的 java.util.TreeMap 和 java.util.HashMap 分 别 是 基于 红 黑 树 和 拉链 法 的 散 列表 的 符号 表 实 
现 。TreeMap 没有 直接 支持 rank() 、select() 和 我 们 的 有 序 符号 表 API 中 的 一 些 其 他 方法 ， 但 它 
支持 一 些 能 够 高 效 实现 这 些 方法 的 操作 。HashMap 和 我 们 的 LinearProbingHashST 的 实现 基本 相 
同一 它 也 会 动态 调整 数组 的 大 小 来 保持 使 用 率 大 约 不 超过 75%。 

为 了 保持 前 后 一 致 ， 我 们 在 本 书 中 一 般 会 使 用 3.3 节 中 基于 红 黑 树 的 符号 表 或 是 3.4 节 中 基于 
线性 探测 法 的 符号 表 。 为 了 节省 篇 幅 并 保证 符号 表 的 用 例 和 具体 实现 的 独立 性 ， 我 们 在 调用 代码 中 
将 使 用 ST 来 代替 有 序 符号 表 RedB1ackBST， 用 HashsT 来 代替 有 序 性 操作 无 关 紧要 上 且 拥 有 散 列 函 
数 的 LinearProbingHashST。 尽管 我 们 知道 某 些 应 用 可 能 需要 改变 或 者 扩展 这 些 算法 和 数据 结构 ， 
我 们 仍然 要 这 样 约定 。 你 应 该 使 用 哪 种 符号 表 ? 随便 ， 只 要 记得 测试 你 的 选择 是 否 能 够 提供 所 需要 
的 性 能 就 好 。 


3.5.2 ”集合 的 API 


某 些 符号 表 的 用 例 不 需要 处 理 值 , 它们 只 需要 能 够 将 键 插入 表 中 并 检测 一 个 键 在 表 中 是 否 存在 。 
因为 我 们 不 允许 重复 的 键 ， 这 些 操作 对 应 着 下 面 这 组 API ( 表 3.5.2 ) ,它们 只 处 理 表 中 所 有 键 的 集 
会 ， 和 相应 的 值 无 关 。 
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表 3.5.2 集合 数据 类 型 的 一 组 基本 API 











public class SET<Key> 
SETO 创建 一 个 空 的 集合 
void add(Key key) 将 键 key 加 入 集合 
void delete(Key key) 从 集合 中 副 除 键 key 
boolean contains(Key key) 键 key 是 否 在 集合 之 中 
boolean isEmptyO 集合 是 否 为 空 
int sizeO 集合 中 键 的 数量 
489] String toString() 对 象 的 字符 串 表示 
只 要 忽略 键 关联 的 值 或 者 使 用 一 个 简 
单 的 类 进行 封装 ， 你 就 可 以 将 任何 符号 表 。 Robnic cass DeDup 
的 实现 变 成 一 个 SET 类 的 实现 ( 请 见 练习 public static void main(String[] args) 
3.5.1 至 练习 3.53 ) 。 HashSET<String> set; 
用 并 (union) 、 交 (intersection ) 、 set = new HashSET<String>(); 
补 (complement ) 和 其 他 数学 集合 的 操作 人 
扩展 SET 类 需要 的 API 更 复杂 ( 例如 ， String key = StdIn.readString(); 
complement 操作 需要 先 定义 所 有 可 能 的 刍 ep 
的 集合 ), 使 用 的 算法 也 更 有 趣 , 练习 3.5.17 set.addCkey); 
会 讨论 它们 。 StdOut.printin(key); 
基于 符号 表 ST，SET 类 分 有 序 和 无 序 } 
两 个 版 本 。 如 果 键 都 是 Comparable 的 ， ; 
我 们 可 以 为 有 序 的 键 定义 min() 、maxO) 、 
floor() ceiling()、 deleteMin()、 Dedup 过 滤器 
deleteMax() 、rank() 、select() 以 及 需 
要 两 个 参数 的 size() 和 get() 方法 来 构成 一 组 完整 的 API。 为 了 遵守 我 们 关于 符号 表 5T 的 约定 ， 
我 们 在 用 例 中 用 SET 表示 有 序 的 集合 ， 用 HashSET 表示 无 序 的 集合 。 
为 了 演示 SET 的 使 用 方法 ， 我 们 来 看 一 组 过 滤器 ( filter ) 程序 。 它 会 从 标准 输入 读 取 一 组 字符 
串 并 将 其 中 一 些 写 人 标准 输出 。 这 种 程序 源 自 于 早期 内 存 很 小 无 法 容纳 所 有 数据 的 计算 机 系统 。 它 
们 在 今天 仍 有 用 武之 地 ， 那 就 是 当 你 的 程序 需要 从 网 络 中 获取 输入 时 。 在 例子 中 我 们 使 用 tinyTale. 
txt ( 请 见 表 3.1.7 ) 作为 输入 。 为 了 保证 可 读 性 ， 我 们 将 输入 中 的 换行 符 保留 到 了 输出 中 ， 不 过 代码 
并 没有 这 么 做 。 
3.5.2.1 dedup 
过 滤器 例子 的 原型 是 一 个 调用 SET 或 者 HashSET 来 去 掉 输入 流 中 的 重复 项 的 程序 ， 一 般 叫 
做 dedup ( 如 右 侧 代码 所 示 ) 。 我 们 会 保存 一 个 已 知 字符 串 的 集合 。 如 果 下 一 个 键 已 经 存在 于 集 
合 中 ， 忽 略 之 ; 如果 不 在 ,将 它 加 入 集合 。 
并 打印 它 。 标 准 输 出 中 键 的 顺序 和 它们 在 。 jee Dosp < riyale Pe et 
标准 输入 中 的 顺序 相同 ， 只 是 去 掉 了 重复 。 age wisdom foolishness 
项 。 这 个 过 程 需 要 的 空间 和 输入 中 不 同 的 。 Spech beyief jncredulity 
键 的 数量 成 正比 ( 一般 比 键 的 总 量 要 小 spring hope winter despair 
490| 得 多 ) 。 











3.5.2.2 ”和 白 名 单 和 黑 名 单 

过 滤器 的 另 一 个 经 典 应 用 是 用 一 个 
文件 中 保存 的 键 来 判定 输入 流 中 的 哪些 键 
可 以 被 传递 到 输出 流 。 这 个 通用 程序 有 许 
多 天 然 的 应 用 ， 最 简单 的 例子 就 是 白 名 
单 。 其 中 ,文件 中 的 键 被 定义 为 好 键 。 用 
例 可 以 选择 将 所 有 不 在 白 名单 上 的 键 传递 
到 标准 输出 并 忽略 所 有 白 名 单 上 的 键 (就 
像 第 1 章 中 我 们 的 第 一 个 程序 处 理 的 那个 
例子 一 样 ) ， 也 可 以 选择 只 将 所 有 在 白 名 
单 上 的 键 传递 到 标准 输出 并 忽略 所 有 不 在 
白 名 单 上 的 键 ( 如 右 侧 这 段 代码 所 示 , 使 
用 HashSET 实现 的 whiteFilter) 。 例 
如 ， 电 子 邮 件 程序 可 能 会 允许 用 户 通过 这 
样 一 个 过 滤器 指定 朋友 的 邮件 地 址 并 将 所 
有 来 自 其 他 人 的 邮件 当成 垃圾 邮件 。 我 们 
根据 指定 的 列表 构造 一 个 HashSET， 然 后 
从 标准 输入 中 读 取 所 有 键 。 如 果 下 个 键 存 
在 于 集合 之 中 则 打印 它 ， 否 则 就 忽略 它 。 
黑 名 单 则 与 之 相反 ， 名 单 上 的 所 有 键 都 被 
定义 为 坏 键 。 同 样 ， 黑 名 单 过 滤器 也 有 两 
种 自然 的 应 用 。 在 电子 邮件 的 例子 中 , 用 
户 可 能 会 指定 一 些 已 知 的 垃圾 邮件 发 送 者 
的 地 址 并 要 求 程序 放 过 所 有 不 是 由 这 些 地 
址 发 来 的 邮件 。 我 们 可 以 用 HashSET 实 
现 一 个 BlackFilter， 过 滤 条 件 只 需要 
和 WhiteFilter 相反 即 可 。 实际 应 用 中 ， 
信用 卡 公司 用 黑 名 单 过 滤 被 盗用 的 信用 卡 





号 ， 路 由 器 用 白 名单 来 实现 防火 墙 。 它 们 使 用 的 名 单 可 能 非常 巨大 ， 输 入 无 限 并 且 响应 时 间 要 求 非 


3.5 应 用 本 315 


public class WhiteFilter 
public static void main(String[] args) 
{ 


HashSET<String> set; 

Set = new HashSET<String>O); 

In in = new In(args[0]); 

while (!in.isEmptyO)) 
Set.add(in.readStringO)); 

while (!StdIn.isEmpty()) 

{ 


String word = StdIn.readString(); 
if (set.contains(word)) 
Stdout.printlnCword); 


白 名 单 过 滤器 


% more list.txt 
was it the of 


% java WhiteFilter list.txt < tinyTale.txt 
it was the of it was the of 
让 was the of it was the of 
it was the of it was the of 
it was the of it was the of 
it was the of it was the of 


% java BlackFilter list.txt < tinyTale.txt 
best times worst times 

age wisdom age foolishness 

epoch belief epoch incredulity 

Season light season darkness 

spring hope winter despair 


常 严 格 。 我 们 已 经 学 习 过 的 符号 表 实 现 能 够 很 好 地 满足 这 些 需 求 。 


3.5.3 字典 类 用 例 











符号 表 使 用 最 简单 的 情况 就 是 用 连续 的 put OQ 操作 构造 一 张 符号 表 以 备 get() 查询 。 许 多 应 用 
程序 都 将 符号 表 看 做 一 个 可 以 方便 地 查询 并 更 新 其 中 信息 的 动态 字典 。 以 下 列 出 了 这 类 用 例 中 的 一 些 


常见 例子 。 


口 电话 黄页 。 当 符号 表 中 的 键 是 人 名 而 值 是 电话 号 码 时 ， 这 张 符号 表 就 成 了 一 个 电话 本 。 但 和 
一 本 纸 质 印 刷 的 电话 黄页 的 一 个 重大 不 同 是 我 们 可 以 向 其 中 添加 新 的 名 字 或 者 更 新 其 中 的 
电话 号 码 。 我 们 也 可 以 将 电话 号 码 作为 键 而 将 人 名 作为 值 一 一 如 果 你 从 来 没 这 么 做 过 ， 试 着 
在 浏览 器 的 搜索 栏 中 输入 你 的 电话 ( 包括 区 号 ) 并 搜索 一 下 。 

口 字典 。 将 一 个 单词 和 它 的 含义 关联 起 来 就 得 到 了 “字典 ”。 几 个 世纪 以 来 人 们 都 会 在 家 里 和 
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办 公 室 里 放 一 本 纸 质 的 字典 以 查找 单词 ( 键 ) 的 定义 和 拼写 ( 值 ) 。 现 在 ， 有 了 优秀 的 符号 
表 实现 ， 人 们 在 电脑 上 可 以 使 用 内 置 的 拼写 检查 器 并 快速 查 到 单词 的 意义 。 

口 账户 信息 。 如 今 股民 们 都 会 在 网 上 实时 获取 股票 的 价格 信息 。 这 些 网 络 服务 会 关联 股票 名 称 
( 键 ) 和 当前 价格 ( 值 ) 以 及 丰富 的 其 他 信息 。 类 似 的 商业 应 用 非常 多 ， 比 如 人 金融 机 构 会 将 
名 字 或 者 账号 与 账户 信息 关联 ， 学 校 会 将 学 生 的 姓名 或 者 学 号 与 他 的 成 绩 关联 ， 等 等 。 

口 基因 组 学 。 在 现代 基因 组 学 中 符号 的 作用 非常 重要 。 最 简单 的 例子 就 是 A、C、T 和 G 这 几 个 
字母 代表 了 活体 组 织 中 DNA 的 四 种 核 苷 酸 。 另 一 个 比较 简单 的 例子 是 密码 子 ( 核 苷 酸 三 联 体 ) 
和 和 氨基酸 的 对 应 关系 ( TTA 表示 亮 氨 酸 ，TCT 表示 丝氨酸 ， 等 等 ) ， 以 及 氨基 酸 序列 和 蛋白 
质 之 间 的 对 应 关系 。 基 因 组 学 的 研究 者 每 天 都 需要 使 用 各 种 符号 表 来 组 织 这 些 信息 。 

口 实验 数据 。 从 天 体 物理 学 到 动物 学 ， 现 代 科学 家 被 各 种 实验 数据 包围 着 。 有 效 的 组 织 和 访问 
这 些 信 息 才能 理解 它们 的 含义 ， 而 符号 表 正 是 一 个 关键 的 人 手 点 。 基 于 符号 表 的 高 级 数据 结 
构 和 算法 如 今 已 经 成 为 科学 研究 的 一 个 重要 部 分 。 

口 编译 器 。 符 号 表 最 早期 的 应 用 之 一 就 是 组 织 程序 代码 的 信息 。 最 初 ， 计 算 机 程序 只 是 一 串 简 
单 的 数字 ， 但 程序 员 们 很 快 发 现 使 用 符号 来 表示 操作 和 内 存 地 址 ( 变量 名 ) 要 方便 得 多 。 将 
名 称 和 数字 关联 起 来 就 需要 一 张 符号 表 。 随 着 程序 的 增长 ， 符 号 表 操 作 的 性 能 逐渐 变 成 了 程 
序 开发 效率 的 瓶颈 ， 为 此 而 开发 的 数据 结构 和 算法 就 是 我 们 在 本 章 中 学 习 的 内 容 。 

口 文件 系统 。 我 们 都 在 使 用 符号 表 定 期 整理 计算 机 系统 中 的 数据 。 也 许 其 中 最 明显 的 例子 就 是 
文件 系统 了 ， 因 为 是 它 将 文件 名 ( 键 ) 和 文件 内 容 的 地 址 ( 值 ) 关联 起 来 。 音 乐 播放 器 同样 
使 用 文件 系统 关联 了 歌曲 名 ( 键 ) 和 歌曲 的 位 置 ( 值 ) 。 

口 互联 网 DNS。 域名 系统 ( DNS ) 是 互联 网 信息 组 织 的 基础 ， 它 可 以 将 人 类 能 够 理解 的 
URL ( 键 ， 如 www.princeton.edu 或 是 www.wikipedia.org ) 和 计算 机 网 络 中 路 由 器 能 够 理 
解 的 IP 地 址 ( 值 ， 如 208.216.181.15 或 是 207.142.131.206 ) 关联 起 来 。 这 个 系统 被 称 为 
下 一 代 “ 电 话 黄页 ”。 有 了 它 ， 人 们 就 可 以 使 用 便于 记忆 的 域名 ， 而 机 器 也 可 以 高 效 地 处 
理 对 应 的 数字 。 为 此 , 全球 互联 网 的 路 由 器 中 每 秒 钟 进行 的 符号 表 查 找 次 数 是 个 天 文 数字 ， 
所 以 性 能 显然 非常 重要 。 每 年 ， 互 联网 上 都 会 新 增 上 百 万 台电 脑 和 其 他 设备 ， 因 此 互联 网 
路 由 器 中 的 符号 表 也 需要 能 够 动态 地 适应 它们 。 

将 以 上 几 个 典型 应 用 总 结 一 下 ， 如 表 3.5.3 所 示 。 


表 3.5.3 典型 的 字典 类 应 用 


— 





应 用 领域 键 值 
电话 黄页 人 名 电话 号 码 
字典 单词 定义 
账户 信息 账号 余额 
基因 组 密码 子 氨基 酸 
实验 数据 数据 /时 间 实验 结果 
编译 器 变量 名 内 存 地 址 
文件 共享 - ”歌曲 名 计算 机 


DNS 网 站 人 P 地 址 


CC 


尽管 已 经 涉及 了 许多 领域 ， 表 3.5.3 中 选取 的 仍然 只 是 几 个 有 代表 性 的 例子 来 说 明 符号 表 应 用 


的 广泛 程度 。 每 当 使 用 一 个 名 称 来 指 代 某 种 东西 时 ， 都 用 到 了 符号 表 。 也 许 你 只 是 用 到 了 计算 机 的 


文件 系统 或 是 互联 网 ， 但 在 某 个 角落 肯 
定 有 一 张 符号 表 在 默默 工作 。 

作为 一 个 具体 的 例子 ， 我 们 来 看 
看 一 个 从 文件 或 者 网 页 中 提取 由 去 号 分 
隔 的 信息 ( .csv 文件 格式 ) 的 程序 。 这 
种 格式 存储 的 列表 的 信息 不 需要 任何 专 
用 的 程序 就 可 以 读 取 : 数据 都 是 文本 ， 
每 行 中 各 项 均 由 逗号 隔 开 。 在 本 书 的 
网 站 上 你 会 找到 很 多 .csv 文件， 都 和 
我 们 刚才 提 到 过 的 应 用 领域 相关 ， 包 
括 amino.csv ( 密码 子 和 氨基 酸 的 编码 
关系 ) 、DJIA.csv ( 道琼斯 工业 平均 指 
数 历史 上 每 天 的 开盘 价 、 成 交 量 和 收盘 
价 ) 、ip.csv (DNS 数据 库 中 的 一 部 分 
条 目 ) 和 upe.csv( 广泛 用 于 识别 商品 的 
Uniform Product Code 条 形 码 ) ， 如 右 
侧 代 码 框 所 示 。 电 子 表格 等 数据 处 理应 
用 程序 都 能 读 写 .csv 文件 ， 我 们 的 例子 
程序 说 明 你 也 能 够 编写 Java 程序 来 根据 

下 页 的 LookupCSV 根据 命令 行 指 
定 的 文件 中 的 数据 构建 了 一 组 键 值 对 ， 
并 会 打印 出 由 标准 输入 读 取 的 键 对 应 的 
值 。 命 令 行 参 数 包括 一 个 文件 名 和 两 个 
整数 ,分 别 用 来 指定 键 和 值 所 在 的 位 置 。 

这 个 例子 的 目的 在 于 展示 符号 表 
的 作用 和 灵活 性 。 哪 个 网 站 的 IP 地 址 
是 128.112.136.35 ? www.cs.princeton. 
edu; 哪 种 氨基 酸 对 应 着 密码 子 TCA ? 
丝氨酸 ; DJIA 在 1929 年 10 月 29 号 的 
价格 是 多 少 ? 252.38; 哪 种 商品 的 条 
形 码 是 0002100001086 ? 卡 夫 芝士 粉 

(Kraft Parmesan ) 。 有 了 LookupCSV 
和 合适 的 .csv 文件 ， 可 以 轻易 查 到 这 类 
问题 的 答案 。 

在 处 理 交互 性 的 查询 时 ， 性 能 一 般 
都 不 是 问题 ( 因为 你 的 计算 机 在 你 打字 
的 工夫 就 能 检索 上 百 万 条 信息 ) ， 所 以 
在 使 用 LookupCSV 时 符号 表 的 高 效 性 并 
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% more amino.csv 
TTT,Phe,F,Phenylalanine 
TTC,Phe,F,Phenylalanine 
TTA,Leu,L,Leucine 
TTG,Leu,L,Leucine 
TCT,Ser,S,Serine 

TCC, Ser,S, Serine 


CAA,Gly,G,Glutamic Acid 
CAG,G1y,G,Glutamic Acid 
GGT,G1y,G,Glycine 
GGC,G1y,G,Glycine 
CCA,G1y,G,Glycine 
GGG,G1y,G,G1ycine 


% more DJIA.csv 


20-0ct-87,1738.74,608099968,1841.01 
19-0ct-87,2164.16,604300032,1738.74 
16-0ct-87,2355.09,338500000,2246.73 
15-0ct-87,2412.70,263200000,2355.09 


30-0ct-29,230.98,10730000,258.47 
29-0Qc ,252.38,16410000,230.07 
28-Oct-29,295.18,9210000,260.64 
25-0ct-29,299.47,5920000,301.22 






% more ip.csv 


www.ebay. com,66.135.192.87 
ww.princeton.edu,128.112.128.15 
www.cs.princeton.edu,128.112.136.35 
ww.harvard.edu,128.103.60.24 
ww.yale.edu,130.132.51.8 

Ww. cnn.com,64.236.16.20 
www.google.com,216.239.41.99 
www. nytimes. com, 199.239.136.200 
ww.apple. com,17.112.152.32 
www.slashdot.org,66.35.250.151 
www.espn.com,199.181.135.201 
ww.weather .com,63.111.66.11 
www. yahoo. com,216.109.118.65 


% more UPC.csv 


0002058102040,,"1 1/4"" STANDARD STORM DOOR" 
0002058102057,,"1 1/4""” STANDARD STORM DOOR" 
0002058102125,, "DELUXE STORM DOOR UNIT" 
0002082012728,"100/ per box","12 gauge she11s" 
0002083110812, "Classical CD",""Bits and Pieces'" 
002083142882,CD, "Garth Brooks - Ropin' The Wind”" 
0002094000003, LB, "PATE PARISIEN"” 

0002098000009， TRUFFLE COGNAC-M&H 8Z RW” 
0002100001086， Kraft Parmesan” 
0002100002090, "15 pieces","Wrigley's Gum" 
0002100002434, "One pint”","Trader Joe's milk" 





典型 的 含有 由 逗号 分 隔 的 值 的 文件 (.csv) 


不 明显 。 但 是 当 程序 需要 进行 ( 大 量 的 ) 查找 时 ,符号 表 的 性 能 就 很 重要 了 。 例 如 ， 互 联网 上 的 一 
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1495) 








台 路 由 器 每 秒 钟 可 能 需要 查找 上 百 万 个 IP 地 址 。 在 本 书 中 ,我 们 已 经 通过 FrequencyCounter 看 
到 了 高 性 能 的 必要 性 ， 在 本 节 中 你 还 会 看 到 其 他 几 个 例子 。 

练习 里 有 几 个 更 加 复杂 的 处 理 .csv 文件 的 测试 用 例 。 例 如 ， 我 们 可 以 将 一 个 字典 动态 化 , 允 
许 它 接受 从 标准 输入 中 得 到 的 指令 来 改变 一 个 键 的 值 ， 或 是 为 它 添加 范围 查找 的 功能 ， 或 者 我 们 
可 以 为 同一 个 文件 构造 多 个 字典 。 
字典 的 查找 


public class LookupCSV 
生 





public static void main(String[] args) 
{ 
In in = new In(args[0]); 
int keyField = Integer.parseInt(args[1]); 
int valField = Integer.parseInt(args[2]); 
ST<String, String> st = new ST<String, String>O); 
while (in.hasNextLine()) 
{ 
String line = in.readLineO; 
String[] tokens = line.split( 
String key = tokens[keyField] 
String val = tokens[valField]; 
st.put(key, val); 





} 

while (!StdIn.isEmptyO) 

{ 
String query = StdIn.readStringO); 
if (st.contains(query)) 

StdOut.println(st.get(query)); 
} 
了 
于 


这 段 数据 驱动 的 符号 表 用 例会 从 一 个 文件 中 读 取 键 值 对 并 根据 标准 输入 中 的 键 打 印 出 相应 的 值 。 其 
中 键 和 值 都 是 字符 串 ， 分 隔 符 由 命令 行 参数 指定 。 


% java LookupCSV ip.csv 1 0 % java LookupCSV amino.csv 0 3 
128.112.136.35 TCC 
www. cs.princeton.edu Serine 








% java LookupCSV DJIA.csv 0 3 % java LookupCSV UPC.csv 0 2 
29-0ct-29 0002100001086 
230.07 Kraft Parmesan 

3.5.4 索引 类 用 例 


字典 的 主要 特点 是 每 个 键 都 有 一 个 与 之 关联 的 值 ， 因 此 基于 关联 型 抽象 数组 来 为 一 个 键 指定 一 
个 值 的 符号 表 数据 类 型 正 合 适 。 每 个 账号 都 唯一 地 表示 一 个 客户 ,每 个 条 码 都 唯一 地 表示 一 种 商品 ， 
等 等 。 但 一 般 说 来 , 一 个 给 定 的 键 当 然 有 可 能 和 多 个 值 相关 联 。 例 如 , 在 我 们 的 amino.csv 的 例子 中 ， 
每 个 密码 子 都 对 应 着 一 种 氨基 酸 , 但 一 种 氨基 酸 有 可 能 对 应 着 多 个 密码 子 。 如 下 页 的 aminol.txt 所 示 ， 


文件 的 每 一 行 都 包含 一 个 氨基 酸 和 它 对 应 的 多 个 密码 子 。 
我 们 使 用 索引 来 描述 一 个 键 和 多 个 值 相关 联 的 符号 
表 ， 下 面 是 更 多 的 例子 。 
口 商业 交易 。 公 司 使 用 客户 账户 来 跟踪 一 天 内 所 有 交 
易 的 一 种 方法 是 为 当日 所 有 交易 建立 一 个 索引 ， 其 
中 键 是 客户 的 账号 , 值 是 和 该 账号 有 关 的 所 有 交易 。 
口 网 络 搜索 。 当 你 输入 一 个 关键 字 并 得 到 一 系列 含 
有 这 个 关键 字 的 网 站 时 ， 你 就 是 在 使 用 网 络 搜索 
引擎 创建 的 索引 。 每 个 键 (查询 ) 都 关联 着 一 个 
值 (一 组 网 页 ) ， 当 然 实际 情况 会 更 加 复杂 ， 因 
为 我 们 经 常会 指定 多 个 关键 字 。 
口 电影 和 演员 。 本 书 网 站 上 的 movies.xt 来 自 于 
IMDB ( 互联 网 电影 数据 库 ) 。 每 一 行 都 含有 一 部 
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aminoI.txt 
Alanine, AAT, AAC, GCT, GCC, GCA,GCG 
Arginine, CGT, CGC, CGA, CGG,AGA, AGG 
Aspartic Acid,CAT,GAC 
Cysteine, TOT, TGC 
Glutamic Acid,GAA,GAG 
Clutamine, CAA, CAG 
Glycine, GOT, GGC, GGA,GGG 
Histidine,CAT,CAC 
Isoleucine,ATT,ATC,ATA 
Leucine, TTA, TTG,CTT,CTC, CTA.CTG 
Lysine,AAA, AAG 
Methionine,ATG 
Phenylalanine, TTT, TTC 
Proline,CCT,CCC, CCA,CCG 
Serine, TCT, TCA, TCG, AGT, AGC 
Stop, TAA, TAG, TGA 
Threonine, ACT, ACC, ACA, ACG 
Tyrosine, TAT, TAC 
Tryptophan, TGG 
Valine, GTT, GTC, GTA,GTG 


”， 分隔 符 


电影 的 名 称 ( 键 ) ， 随 后 是 在 其 中 出 演 的 演员 列 
表 ( 值 ) ， 用 斜 杠 分 隔 ， 如 图 3.5.2 所 示 。 

将 每 个 键 关联 的 所 有 值 都 放 人 一 个 数据 结构 中 比如 
一 个 Queue ) 并 用 它 作为 值 就 可 以 轻松 构造 一 个 索引 。 根 据 这 一 点 来 扩展 LookupCSV 很 简单 ， 我 们 
将 它 留 作 一 道 练习 ( 请 见 练习 3.5.12 ) 。 这 里 我 们 看 一 下 LookupIndex， 它 能 够 从 一 个 文件 ， 例 如 
aminol.txt 或 movies.txt ( 分 隔 符 不 一 定 和 .csv 文件 一 样 必须 是 逗号 ， 但 需要 能 够 从 命令 行 指定 ) ， 
构造 一 个 索引 。 构 造 完 成 后 LookupIndex 能 够 接受 查询 并 打印 出 键 对 应 的 所 有 值 。 更 有 意思 的 是 
LookupIndex 也 会 为 每 个 文件 构造 一 个 反 向 索引 , 也 就 是 将 键 和 值 的 角色 互 换 。 在 氨基 酸 的 例子 中 ， 
它 的 功能 相当 于 LookupCSV ( 找到 给 定 密码 子 所 对 应 的 氨基 酸 ) 。 在 电影 和 演员 的 例子 中 ， 它 使 我 
们 能 够 找到 一 个 演员 出 演 过 的 所 有 电影 。 这 项 信息 隐藏 于 数据 当中 ， 但 没有 符号 表 我 们 就 很 难 获取 
它 。 请 仔细 研究 这 个 例子 ， 因 为 它 深刻 地 揭示 了 符号 表 的 本 质 特征 。 

表 3.5.4 总 结 了 典型 的 索引 类 应 用 的 符号 表 中 键 值 的 对 应 情况 。 


多 个 值 
一 个 小 型 索引 文件 (20 行 ) 


表 3.5.4 典型 的 索引 类 应 用 














应 用 领域 
基因 组 学 氨基 酸 -系列 密码 子 
商业 交易 一 系列 交易 





movies. txt 


Se "7 分 隔 符 
Tin Men (1987)/DeBoy, David/Blumenfeld, Alan/... / 
Tirez sur le pianiste (1960)/Heymann, Claude/... 
Titanic (1997)/Mazin, Stan/...DiCaprio, Leonardo/... 


Titus (1999)/Weisskopf, Hermann/Rhys, Matthew/... 

To Be or Not to Be (1942)/Verebes, Ernd (TD)/... 

To Be or Not to Be (1983)/.../Brooks, Mel (D/... 

To Catch a Thief (1955)/Paris, Manuel/... 

To Die For (1995)/Smith, Kurtwood/.../Kidman, Nicole/... 





图 3.5.2 一 个 巨型 索引 文件 (250 000 多 行 ) 的 一 小 部 分 
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反 向 索引 
反 向 索引 一 般 是 指 用 值 来 查找 键 的 操作 ， 比 如 我 们 有 大 量 的 数据 并 且 希 望 知道 某 个 键 都 在 哪些 
地 方 出 现 过 。 这 是 另 一 种 符号 表 的 典型 用 例 ， 它 会 进行 一 系列 get() 和 putQ 的 混合 调用 。 和 以 
前 一 样 ， 我 们 将 每 个 键 和 一 个 SET 类 型 的 值 关 联 起 来 ， 这 个 值 中 包含 了 该 键 出 现 的 所 有 位 置 。 位 置 
信息 的 性 质 和 用 途 取 决 于 应 用 场景 : 在 一 本 书 中 ,位 置 可 能 是 书 的 页 码 ; 在 一 段 程序 中 ， 位 置 可 能 
是 代码 的 行 号 ; 在 基因 组 中 ,位 置 可 能 是 一 段 基因 序列 的 某 个 位 点 ， 等 等 。 
口 互联 网 电影 数据 库 ( IMDB ) 。 在 上 文 的 例子 中 ， 输 入 是 将 每 部 电影 和 它 的 演员 关联 起 来 的 
一 个 索引 。 它 的 反 向 索引 则 会 将 每 个 演员 和 他 出 演 过 的 所 有 电影 相关 联 。 
口 图 书 索引 。 每 本 教科 书 都 会 有 一 个 索引 。 你 能 在 其 中 查找 到 一 个 术语 和 它 出 现 过 的 所 有 页 码 。 
创建 优秀 的 索引 当然 需要 作者 的 努力 来 去 掉 常 见 和 无 关 的 词语 ， 但 文档 处 理 系统 能 够 使 用 符 
号 表 将 整个 过 程 自动 化 。 一 种 有 趣 的 特殊 情况 叫做 对 照 索 引 〈concordance) ， 它 会 给 出 每 
个 单词 在 书 中 出 现 的 所 有 位 置 ( 请 见 练习 3.5.20 ) 。 
口 编译 器 。 在 一 个 使 用 了 许多 符号 的 庞大 程序 中 ， 能 够 知道 每 个 名 称 的 使 用 位 置 很 有 帮助 。 在 
以 前 ， 一 张 打印 的 以 追踪 各 个 符号 在 程序 中 使 用 位 置 的 符号 表 曾 经 是 程序 员 最 重要 的 工具 之 
一 。 在 现代 计算 机 系统 中 ， 符 号 表 是 程序 员 用 来 管理 各 种 名 称 的 工具 软件 的 基础 。 
口 文件 搜索 。 现 代 操 作 系统 都 提供 了 根据 关键 字 搜索 文件 的 功能 。 对 于 这 个 索引 ， 键 就 是 关键 
字 ， 值 则 是 含有 该 关键 字 的 所 有 文件 的 集合 。 
口 基因 组 学 。 基 因 组 学 研究 中 的 一 个 典型 ( 或 许 有 些 过 于 简化 了 ) 情况 是 科学 家 希望 
知道 一 个 给 定 的 核 苷 酸 序列 在 一 个 基因 或 者 一 组 基因 中 的 位 置 。 某 些 特定 序列 或 者 
近似 序列 的 存在 也 许 都 有 重大 的 意义 。 这 种 研究 首先 就 需要 一 个 序列 和 基因 的 对 
照 索引 ， 但 也 需要 一 些 修改 ， 因 为 基因 是 无 法 像 句 子 一 样 被 切 分 为 单词 的 ( 请 见 练 
习 35.15)。 
常见 反 向 索引 用 例 的 符号 表 的 键 值 对 应 情况 如 表 3.5.5 所 示 。 


表 3.5.5 典型 的 反 向 索引 





应 用 领域 键 值 

IMDB 演员 一 系列 电影 

图 书 术语 一 系列 页 码 
编译 器 标识 语 一 系列 使 用 位 置 
文件 搜索 关键 字 文件 集合 

基因 组 学 基因 片段 一 系列 位 置 





索引 《以 及 反 向 索引 ) 的 查找 


public class LookupIndex 

{ 
public static void main(String[] args) 
{ 





In in = new In(args[0]);  // (索引 数据 库 ) 

String sp = args[1]; // (分隔 特 ) 

ST<String, Queue<String>> st = new ST<String，Queue<String>>O; 
ST<String, Queue<String>> ts = new ST<String, Queue<String>>O); 
while (in.hasNextLineO)) 


String[] a = in.readLine() .split(sp); 


String key = a[0]; 
for (int i = 1; i < a.length; i++) 
{ 
String val = a[i]; 
if (!st.contains(key)) 
St.put(key, new Queue<String>()); 
if (!ts.contains(val)) 
ts.put(val, new Queue<String>()); 
st.get(key) .enqueue(val); 
ts.get(val) .enqueue(key); 
} 
} 
while (!StdIn.isEmptyO) 
{ 
String query = StdIn.readLine(); 
if (st.contains(query)) 
for (String s : st.get(query)) 
Stdout.println(” “+ Ss); 
if (ts.contains(query)) 
for (String s : ts.get(query)) 
StdOut.printlnC(” “+ 5); 
} 
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% java LookupIndex aminoI.txt "," 
Serine 

TCT 

TCA 

TG 

AGT 

AGC 
TcG 

Serine 


% java LookupIndex movies,txt "/" 
Bacon, Kevin 
Mystic River (2003) 
Friday the 13th (1980) 
Flatliners (1990) 
Few Good Men, A (1992) 


Tin Men (1987) 
Blumenfeld, Alan 
DeBoy, David 


} 
} 


这 段 数据 驱动 的 符号 表 用 例会 从 一 个 文件 中 读 取 键 值 对 并 根据 标准 输入 中 的 键 打印 出 相应 的 值 。 其 
中 键 为 字符 串 ， 值 为 一 列 字符 串 ， 分 隔 符 由 命令 行 参 数 指定 。 
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下 面 的 FileIndex 从 命令 行 接受 多 个 文件 名 并 使 用 一 张 符号 表 来 构造 一 个 反 向 索引 ， 它 能 够 
将 任意 文件 中 的 任意 一 个 单词 和 一 个 出 现 过 这 个 单词 的 所 有 文件 的 文件 名 构成 的 SET 对 象 关联 起 
来 。 在 接受 标准 输入 的 查询 时 ， 输 出 单词 对 应 的 文件 列表 。 这 个 过 程 与 工具 软件 在 网 络 上 或 是 在 你 
的 计算 机 上 查找 信息 的 过 程 类 似 ， 即 根据 输入 的 关键 字 得 到 所 有 该 关键 字 出 现 过 的 位 置 。 这 类 工具 
的 开发 者 一 般 会 在 下 面 几 点 上 下 工夫 来 改进 这 个 过 程 

口 查询 形式 ; 

口 被 索引 的 文件 或 网 页 的 集合 ; 

口 文件 或 网 页 在 结果 中 的 排列 顺序 。 

例如 ， 你 肯定 已 经 习惯 了 在 网 络 搜索 引擎 ( 它们 的 基础 都 是 将 网 络 上 的 大 部 分 页 面 进行 索引 ) 
的 查询 中 输入 多 个 关键 字 进 行 查 找 ， 并 得 到 一 组 按照 相关 性 或 者 重要 性 ( 对 于 你 或 是 对 于 广告 商 而 
言 ) 由 高 到 低 排序 的 结果 。 本 节 最 后 的 练习 中 讨论 了 这 里 的 一 些 改进 。 我 们 会 在 以 后 学 习 和 网 络 搜 
索 有 关 的 各 种 算法 ， 但 符号 表 仍然 会 是 整个 过 程 的 核心 工具 。 

和 LookupIndex 一 样 ， 你 也 应 该 从 本 书 的 网 站 上 下 载 FileIndex 并 用 它 来 为 你 的 电脑 上 的 一 
些 文件 或 是 你 感 兴趣 的 一 些 网 站 建立 索引 ， 从 而 更 好 地 理解 符号 表 的 使 用 。 你 将 会 发 现 即使 是 根据 
巨型 文件 构造 庞大 的 索引 ， 这 个 工具 的 耗 时 也 不 多 ， 因 为 每 个 put 0) 操作 和 get() 请 求 的 处 理 都 
非常 快 。 确 保 巨 型 的 动态 索引 实现 即时 响应 是 算法 技术 的 重要 胜利 之 一 。 
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文件 索引 


import java.io.File; 
public class FileIndex 


{ 





public static void main(String[] args) 
{ 
ST<String, SET<File>> st = new ST<String, SET<File>>(); 
for (String filename : args) 
{ 
File file = new File(filename); 
In in = new In(file); 
while (!in.isEmpty()) 
{ 
String word = in.readString(); 
if (!st.contains(word)) st.put(word, new SET<ile>O); 
SET<File> set = st.get(word); 
set.add(file); 


} 
while (!StdIn.isEmoty()) 
{ 
String query = StdIn.readStringO); 
if (st.contains(query)) 
for (File file : st.get(query)) 
StdOut.printIn( “ “+ file.getName()); 


} 
这 段 符号 表 用 例 能 够 为 一 组 文件 创建 索引 。 我 们 将 每 个 文件 中 的 每 个 单词 都 记录 在 符号 表 中 并 维护 


一 个 SET 对 象 来 保存 出 现 过 该 单词 的 文件 。In 对 象 接受 的 名 称 也 可 以 是 网 页 ， 因 此 这 段 代码 也 可 以 用 来 
为 一 组 网 页 创建 反 向 索引 。 


% java FileIndex ex*.txt 


% more exl,txt age 

it was the best of times ex3 ,txt 
@x4.txt 

% more ex2.txt bank 

it was the worst of times ex1.txt 

% more ex3.txt ep 

it was the age of wisdom exl. txt 
ex2.txt 

% more ex4.txt ex3.txt 

it was the age of foolishness ex4.txt 





3.5.5 ”稀疏 向 量 

下 面 这 个 例子 展示 的 是 符号 表 在 科学 和 数学 计算 领域 所 起 到 的 重要 作用 。 我 们 会 考察 一 种 重要 
而 常见 的 计算 ， 它 在 典型 的 实际 应 用 中 常常 是 性 能 的 瓶颈 ， 然 后 我 们 会 演示 符号 表 如 何 解决 这 个 瓶 
颈 并 能 够 处 理 规模 大 得 多 的 问题 。 实 际 上 ， 这 个 计算 正 是 S. Brin 和 L. Page 发 明 的 PageRank 算法 
的 核心 ， 这 个 算法 在 2000 年 左右 造就 了 Google ( 它 同时 也 是 一 个 著名 的 数学 抽象 模型 ， 在 很 多 其 


a00 xD bD 
0.90 0 0 olf.os 036 
0 .36 .36 .18| |.04 297 
0 0 0.90 ol.3| = |.333 
:90 0 0 0 ol|.37 .045 
.47 0.47 0 ol|.19 1927 


图 3.5.3 ”矩阵 和 向 量 的 乘法 


3.5 应 用 本 323 


他 场景 中 都 会 用 到 ) 。 

我 们 要 考察 的 简单 计算 就 是 矩阵 和 向 量 的 
乘法 〔 如 图 3.5.3 所 示 ) : 给 定 一 个 矩阵 和 一 个 
向 量 并 计算 结果 向 量 ， 其 中 第 ;项 的 值 为 矩阵 
的 第 ; 行 和 给 定 的 向 量 的 点 乘 。 为 了 简化 问题 ， 
我 们 只 考虑 N 行 Y 列 的 方 阵 ， 向 量 的 大 小 也 为 
N。 在 Java 中 , 用 代码 实现 这 种 操作 非常 简单 ， 
但 所 需 的 时 间 和 N 成 正比 ， 因 为 N 维 结果 向 量 
中 的 每 一 项 都 需要 计算 次 乘法 。 因 为 需要 存 


储 整 个 矩阵 ， 计 算 所 需 的 空间 也 和 入 成 正比 。 实 现代 码 如 下 所 示 。 
在 实际 应 用 中 ，X 往 往 非常 巨大 。 例 如 ， 在 刚才 提 到 的 Google 的 应 用 中 ，N 等 于 互联 网 中 所 


有 网 页 的 总 数 。 在 PageRank 算法 发 明 的 时 
候 ， 这 个 数字 大 概 在 百 亿 到 千 亿 之 间 ， 但 之 
后 一 直 在 暴 增 。 因 此 ，N 的 值 应 该 远 远大 于 
10”。 没 人 能 够 负担 起 这 么 多 内 存 和 时 间 来 进 
行 这 种 计算 ， 所 以 我 们 需要 更 好 的 算法 。 

幸好 ， 这 里 的 和 矩 阵 常常 是 稀疏 的 ， 即 其 
中 大 多 数 项 都 是 0。 实 际 上 ， 在 Google 的 应 
用 中 ， 每 行 中 的 非 零 项 的 数量 是 一 个 较 小 的 
常数 : 每 个 网 页 中 指向 其 他 页 面 的 链接 其 实 
都 很 少 ( 相 比 互联 网 中 所 有 网 页 的 总 数 而 言 ) 。 
因此 ， 我 们 可 以 将 这 个 和 矩阵 表示 为 由 稀疏 向 
量 组 成 的 一 个 数组 ， 使 用 HashsT 的 稀疏 向 量 
实现 如 下 面 的 SparseVector 所 示 。 


能 够 完成 点 乘 的 稀疏 向 量 


double[][] a = new double[N] [N]; 
double[] x = new double[N]; 
double[] b = new double[N]; 


]] 和 和 好 化 ar] [和 x[] 
fon Cint i = 0; i < N; i++) 
{ 
sum = 0.0; 
for (int j = 0; j < N; j++) 


Sum += a[i][j)*x[j]; 
b[i] = sum; 


矩阵 和 向 量 相 乘 的 标准 实现 





public class SparseVector 


private HashST<Integer, Double> st; 
public SparseVector() 


{ st = new HashST<Integer, Double>(); 


public int size() 

{ return st.size(); } 

public void put(int i, double x) 
{ st.put(i, x); 

public double getCint i) 

{ 


if (!st.contains(i)) return 0.0; 
else return st.get(i); 


} 
public double dot(double[] that) 
{ 


double sum = 0.0; 
for (int i : st.keysO) 

Sum += that[i]*this.get(i); 
return sum; 





} 
} 


} 
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这 个 符号 表 的 用 例 实现 了 稀疏 向 量 的 主要 功能 并 高 效 完成 了 点 乘 操作 。 我 们 将 一 个 向 量 中 的 每 一 项 
和 另 一 个 向 量 中 对 应 项 相 乘 并 将 所 有 结果 相 加 ， 所 需 的 乘法 操作 数量 等 于 稀 朴 向 量 中 的 非 零 项 的 数目 。 





























































































































稀疏 矩阵 的 表示 如 图 3.5.4 所 示 。 
doub1e[] 对 象 的 数组 SparseVector 对 象 的 数组 
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图 3.5.4 ”稀疏 矩阵 的 表示 


这 里 我 们 不 再 使 用 a[i] [j] 来 访问 矩阵 中 第 i 行 第 j 列 的 元 素 ， 而 是 使 用 a[i] .put(j，va1) 
来 表示 和 矩阵 中 的 值 并 使 用 a[i] .get(j) 来 获取 它 。 从 下 面 这 段 代码 可 以 看 到 ， 用 这 种 方式 实现 的 
和 矩阵 和 向 量 的 乘法 比 数组 表示 法 的 实现 更 简单 ( 也 能 更 清晰 地 描述 乘法 的 过 程 ) 。 更 重要 的 是 ， 它 
所 需 的 时 间 仅 和 和 加 上 和 矩阵 中 的 非 零 元 素 的 数量 成 正比 。 

虽然 对 于 较 小 或 是 不 那么 稀 朴 的 矩阵 ， 使 用 符号 表 的 代价 可 能 会 非常 高 昂 ， 但 你 应 该 理解 它 对 
于 巨型 稀 朴 矩阵 的 意义 。 为 了 更 好 地 说 明 这 一 点 ， 设 想 一 个 超大 的 应 用 ( 就 像 Brin 和 Page 面 对 的 
问题 一 样 ) ，N 可 能 超过 100 亿 或 者 1000 亿 而 平均 每 行 中 的 非 零 元 素 小 于 10。 对 于 这 种 应 用 ， 使 
用 符号 表 能 够 将 矩阵 和 向 量 乘法 的 速度 提升 10 亿 入 甚至 更 多 。 这 种 应 用 虽然 简单 但 非常 重要 ， 不 
愿意 挖 气 其 中 省 时 省 力 的 潜力 的 程序 员 解决 实际 问题 能 力 的 潜力 也 必然 是 有 限 的 ， 能 够 将 运行 速度 
提升 几 十 亿 倍 的 程序 员 勇 于 面 对 看 似 无 法 解决 的 问题 。 

构造 Google 所 使 用 的 矩阵 是 一 种 图 的 应 用 ( 当然 也 是 符号 表 的 一 种 应 用 ) ， 尽 管 是 一 个 巨型 
的 稀 朴 矩阵 。 有 了 这 个 矩阵 ，PageRank 算法 的 计算 就 变 成 了 简单 的 矩阵 和 向 量 之 间 的 乘法 运算 ， 不 
断 用 结果 向 量 取代 计算 所 使 用 的 向 量 ， 重 复 这 个 迭代 过 程 直到 收敛 (这 一 点 是 由 概率 论 的 基础 定理 
所 保证 的 ) 。 因 此 ， 使 用 一 个 类 似 于 SparseVector 的 类 能 够 将 这 种 应 用 程序 所 需 的 空间 和 时 间 改 
进 几 百 或 者 几 千 亿 倍 ， 甚 至 更 多 。 

在 许多 科学 计算 中 类 似 的 改进 都 是 可 能 的 ， 因 此 稀疏 向 量 和 矩阵 的 应 用 十 分 广泛 ， 并 且 一 般 都 
会 被 集成 到 科学 计算 专用 的 库 中 。 在 处 理 庞大 的 向 量 或 矩阵 的 时 候 ， 你 最 好 用 一 些 简单 的 性 能 测试 
来 保证 不 会 错过 类 似 的 改进 机 会 。 另 外 ， 大 多 数 编程 语言 都 拥有 处 理 原始 数据 类 型 数组 的 能 力 ， 因 
此 像 例子 中 那样 用 数组 来 保存 密集 的 向 量 也 许 能 提供 更 好 的 性 能 。 对 于 这 些 应 用 ， 有 必要 深入 了 解 
它们 的 运行 瓶颈 从 而 选择 合适 的 数据 类 型 实现 。 
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符号 表 之 所 以 是 算法 技术 为 现代 计算 机 基础 设施 建 
设 的 一 大 重要 贡献 ， 是 因为 在 很 多 实际 应 用 中 它 都 能 够 SparseVector[] ai 
节省 大 量 的 运行 成 本 ， 使 得 各 个 领域 内 许多 原来 完全 无 i NOP 
e[] x = new double[N]; 
法 想象 的 问题 的 解决 成 为 可 能 。 科 学 或 是 工程 领域 能 够 double[] b = new double[N]; 
将 运行 效率 提升 一 千 亿 售 的 发 明 极 少 一 一 我 们 已 经 在 几 i 
个 例子 中 看 到 ， 符 号 表 做 到 了 ， 并 且 这 些 改进 的 影响 非 // 和 壤 化 ar] 和 x[] 
常 深远 。 但 我 们 学 习 过 的 数据 结构 和 算法 的 演化 并 没有 pa 
or (int i = 0; 1 < Ni i++) 
结束 : 它们 才 出 现 了 几 十 年 ， 我们 也 并 没有 完全 了 解 它 b[i] = a[i].dot(); 
们 的 性 质 。 鉴 于 它们 的 重要 性 ， 符 号 表 的 各 种 实现 仍然 
是 全 球 学 者 的 研究 热点 。 随 着 它 的 应 用 范围 不 断 扩展 ， 稀 玻 矩阵 和 向 量 的 乘法 
我 们 会 在 更 多 领域 看 到 它 的 新 发 展 。 















图 答疑 


问 SET 能 够 包含 nu11 吗 ? 
答 不 行 。 和 符号 表 一 样 ， 键 必须 是 非 空 的 对 象 。 
间 SET 可 以 是 nu11 吗 ? 


答 不 行 。 一 个 SET 集合 可 以 是 空 的 (不 包含 任何 对 象 ), 但 不 能 为 nu11。 和 Java 的 其 他 数据 类 型 一 样 ， 
一 个 SET 类 型 的 变量 的 值 可 以 是 nu11， 但 这 仅仅 意味 着 它 没有 指向 任何 SET 对 象 。 对 SET 使 用 new 


的 结果 必然 是 一 个 非 空 的 对 象 。 
间 ”如果 能 够 将 所 有 数据 都 存储 在 内 存 中 ， 那 就 没有 必要 使 用 过 滤器 了 ， 对 吗 ? 


答 是 的 。 过 滤器 最 大 的 用 处 在 于 处 理 输 入 数据 量 未 知 的 情况 。 在 其 他 情况 下 ， 它 可 能 会 是 一 种 有 用 的 


思维 方式 ， 但 也 不 是 万 能 的 。 
问 我 在 一 张 电子 表格 中 保存 了 一 些 数据 。 我 需要 开发 一 个 类 似 于 LookupCSV 的 程序 查找 这 些 数据 吗 ? 
答 “你 的 电子 表格 程序 应 该 能 够 将 它们 导出 为 .csv 的 文件 ， 这 样 你 就 可 以 直接 使 用 LookupCSV 了 。 
问 FileIndex 程序 有 什么 用 ? 操作 系统 不 能 解决 这 个 问题 吗 ? 
答 ”如 果 操作 系统 能 够 满足 你 的 需求 
FileIndex 也 是 为 了 向 你 展示 这 些 应 用 程序 的 基本 原理 并 为 你 提供 其 他 的 可 能 性 。 








间 为 什么 SparseVector 的 dot0) 方法 不 接受 一 个 SparseVector 对 象 作 为 参数 并 返回 一 个 


SparseVector 对 象 ? 


答 ”这 也 是 一 个 不 错 的 设计 , 它 所 需 的 代码 比 我 们 的 设计 稍稍 复杂 一 些 , 因此 也 是 一 道 不 错 的 编程 练习 ( 请 


见 练习 3.5.16 ) 。 对 于 普通 矩阵 的 处 理 ， 我 们 也 许 还 应 该 再 增加 一 个 SparseMatrix 数据 类 型 。 


3.5.1 分 别 使 用 ST 和 HashST 来 实现 SET 和 HashSET ( 为 键 关联 虚拟 值 并 忽略 它们 ) 。 
3.5.2 ”删除 SequentialSearchsT 中 和 值 相 关 的 所 有 代码 来 实现 SequentialSearchSET。 
3.5.3 删除 BinarySearchST 中 和 值 相关 的 所 有 代码 来 实现 BinarySearchSET。 


3.5.4 分 别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 HashSTint 类 和 HashsTdouble 类 ( 将 


LinearProbingHashST 中 的 泛 型 改 为 原始 数据 类 型 ) 。 
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当然 应 该 直接 使 用 它 的 解决 方案 。 和 我 们 的 许多 例子 程序 一 样 ， 
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3.5.5 分 别 为 int 和 double 两 种 原始 数据 类 型 的 键 实 现 STint 类 和 STdouble 类 (将 RedB1ackBST 中 
的 泛 型 改 为 原始 数据 类 型 ) 。 用 经 过 修改 的 SparseVector 作为 用 例 测 试 你 的 答案 。 
3.5.6 ”分别 为 int 和 double 两 种 原始 数据 类 型 的 键 实 现 HashSETint 类 和 HashSETdouble 类 ( 删 去 你 
为 练习 3.5.4 给 出 的 答案 中 所 有 关于 值 的 代码 ) 。 
3.5.7 分 别 为 int 和 double 两 种 原始 数据 类 型 的 键 实现 SETint 类 和 SETdouble 类 ( 删 去 你 为 练习 3.5.5 
给 出 的 答案 中 所 有 关于 值 的 代码 ) 。 
3.5.8 修改 LinearProbingHashST， 人 允许 在 表 中 保存 重复 的 键 。 对 于 get 0) 方法， 返回 给 定 键 所 关联 
的 任意 值 ; 对 于 delete() 方法 ,删除 表 中 所 有 和 给 定 键 相 等 的 键 值 对 。 
3.5.9 ”修改 二 叉 查 找 树 BST， 人 允许 在 树 中 保存 重复 的 键 。 对 于 get 0) 方法 , 返回 给 定 键 所 关联 的 任意 值 ; 
对 于 delete() 方法 ， 删 除 树 中 所 有 和 给 定 键 相等 的 结 点 。 
3.5.10 修改 红 黑 树 RedBlackBST， 人 允许 在 树 中 保存 重复 的 键 。 对 于 get 0 方法 ， 返 回 给 定 键 所 关联 的 
507 任意 值 ;， 对 于 deleteQ 方法 ， 删 除 树 中 所 有 和 给 定 键 相等 的 结 点 。 
3.5.11 开发 一 个 和 SET 相似 的 类 Mu1tiSET， 人 允许 出 现 相等 的 键 ， 也 就 是 实现 了 数学 上 的 多 重 集合 。 
3.5.12 ”修改 LookupCSV, 将 每 个 键 和 输入 中 与 该 键 对 应 的 所 有 值 相 关联 ( 而 非 和 关联 型 抽象 数组 的 一 样 ， 
仅 关联 最 近 出 现 的 那个 值 ) 。 
3.5.13 ”修改 LookupCSV 为 RangeLookupCSV， 从 标准 输入 接受 两 个 键 并 打印 出 .csv 文件 中 所 有 在 该 范 
围 之 内 的 键 值 对 。 
3.5.14 ”编写 并 测试 方法 invert() ， 它 接受 参数 ST<String，Bag<String>> 并 返回 给 定 符号 表 的 反 向 
索引 (一 个 相同 类 型 的 符号 表 ) 。 
3.5.15 ”编写 一 个 程序 ， 从 标准 输入 接受 一 个 字符 串 和 一 个 整数 上 作为 参数 ， 在 标准 输出 中 有 序 打印 出 
在 字符 串 中 找到 的 上 元 文法 (k-gram ) ， 以 及 每 个 kgram 在 字符 串 中 的 位 置 。 
3.5.16 为 SparseVector 添加 一 个 sum() 方法 ， 接 受 一 个 SparseVector 对 象 作为 参数 并 将 两 者 相 加 
的 结果 返回 为 一 个 SparseVector 对 象 。 请 注意 : 你 需要 使 用 delete() 方法 来 处 理 向 量 中 的 一 
508 项 变 为 0 的 情况 ( 请 特别 注意 精度 ) 
图 提高 是 
3.5.17 数学 集合 。 你 的 目标 是 实现 表 3.5.6 中 MathSET 的 API 来 处 理 ( 可 变 的 ) 数学 集合 。 


表 3.5.6 一 种 简单 的 集合 数据 类 型 的 API 
Public class MathSET<Key> 





MathSET(Key[] universe) 创建 一 个 集合 
void add(Key key) 将 key 加 入 集合 
MathSET<Key> complement() 所 有 不 在 该 集合 中 的 键 的 集合 
void union(MathSET<Key> a) 人 


void intersection(MathSET<Key> a) 将 法 潮 合 中 所 有 不 在 中 的 键 删除 


void delete(Key key) 将 key 从 集合 中 删 去 
boolean contains(Key key) 集合 中 是 否 存 在 键 key 
boolean isEmptyO 集合 是 否 为 空 


int sizeO 集合 中 键 的 总 数 


3.5.18 


3.5.19 


3.5.20 


3.5.21 


3.5.22 


3.5.23 


3.5.24 


3.5.25 


3.5.26 


3.5.27 
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请 使 用 符号 表 来 实现 它 。 附 加 题 : 使 用 boolean 类 型 的 数组 来 表示 集合 。 

多 重 集合 。 请 参考 练习 3.5.2、 练 习 3.5.3 以 及 前 面 的 练习 ， 为 无 序 和 有 序 的 多 重 集合 ( 可 以 含有 相 
同 的 键 的 集合 ) 给 出 Mu1tiHashSET 和 Mu1tiSET 的 API， 并 分 别 用 SeparateChai ningMu1tiSET 
和 BinarySearchMu1tiSET 实现 它们 。 

符号 表 中 的 等 值 键 。 ( 有 序 的 和 无 序 的 ) Mu1tisT 的 API 分 别 和 表 3.1.2 以 及 表 3.1.4 中 定 
义 的 符号 表 API 相同 ， 只 是 允许 存在 等 值 的 键 。 因 此 ，get() 方法 的 行为 是 返回 给 定 键 所 关 

联 的 任意 值 。 另 外 ， 我 们 还 需要 添加 一 个 新 方法 来 返回 和 给 定 键 关联 的 所 有 值 ， 
Iterable<Value> getA11(Key key) 

根据 我 们 的 SeparateChainingHashsT 和 BinarySearchsT 的 代码 来 实现 SeparateChaining- 
MultiST 和 BinarySearchMu1tiST 的 API。 

对 照 索引 。 编 写 一 个 5T 的 用 例 Concordance， 为 从 标准 输入 得 到 的 字符 串 构建 对 照 索引 并 打印 
出 来 (请 见 表 3.5.5 ) 。 

反 向 对 照 索引 。 编 写 一 个 程序 InvertedConcordance， 从 标准 输入 接受 一 个 对 照 索引 并 在 标 
准 输出 中 打印 出 原始 的 字符 串 。 注 意 : 这 个 计算 和 著名 的 “死海 卷轴 ”故事 有 关 。 最 早 发 
现 原始 石板 的 团队 仅 公开 了 用 一 种 不 为 人 知 的 方式 生成 的 对 照 索引 。 一 段 时 间 之 后 其 他 研 
究 者 才 找到 了 如 何 将 这 种 索引 还 原 的 方法 ， 并 最 终 将 石板 上 的 全 文公 之 于 众 。 

完全 索引 的 CSV 文件 。 编 写 一 个 ST 的 用 例 Fu11LookupCSV， 构造 一 个 ST 对 象 的 数组 ( 每 列 一 
个 ) ， 以 及 一 个 允许 使 用 者 指定 键 和 值 的 列 的 测试 用 例 。 

稀疏 矩阵 。 为 稀 朴 二 维 矩 阵 设计 一 组 API 并 将 它 实现 ， 支 持 年 阵 的 加 法 和 乘法 操作 。 包 含 分 别 
能 够 指定 行 和 列 向 量 的 构造 函数 。 

不 重 妥 的 区 间 查 找 。 给 定 对 象 的 一 组 互 不 重 车 的 区 间 ， 编 写 一 个 函数 接受 一 个 对 象 作为 参数 并 判 
断 它 是 否 存 在 于 其 中 任何 -个 区 间 之 内 。 例 如 ， 如 果 对 象 是 整数 而 区 间 为 1643-2033，5532_7643， 
8999-10332，5666653-5669321, 那么 查询 9122 的 结果 为 第 三 个 区 间 , 而 8122 的 结果 是 不 在 任何 区 间 。 
登记 员 的 日 程 安排 。 东 北部 某 著名 大 学 的 注册 主任 最 近 作 出 的 安排 中 有 一 位 老师 需要 在 同一 时 
间 为 两 个 不 同 的 班级 授课 。 请 用 一 种 方法 来 检查 类 似 的 冲突 , 帮助 这 位 主任 不 要 再 犯 同 样 的 错误 。 
简单 起 见 ， 假 设 每 节 课 的 时 间 为 50 分 钟 ， 分 别 从 9:00、10:00、11:00、1:00、2:00 和 3:00 开始 。 
LRU 缓存 。 创 建 一 个 支持 以 下 操作 的 数据 结构 : 访问 和 删除 。 访 问 操作 会 将 不 存在 于 数据 结构 
中 的 元 素 插入 。 删 除 操作 会 删除 并 返回 最 近 访 问 过 的 元 素 。 提 示 : 将 元 素 按照 访问 的 先后 顺序 
保存 在 一 条 双向 链表 之 中 ， 并 保存 指向 开头 和 结尾 元 素 的 指针 。 将 元 素 和 元 素 在 链表 中 的 位 置 
分 别 作为 键 和 相应 的 值 保存 在 一 张 符号 表 中 。 当 你 访问 一 个 元 素 时 ， 将 它 从 链表 中 删除 并 重新 

插入 链表 的 头 部 。 当 你 删除 一 个 元 素 时 ， 将 它 从 链表 的 尾部 和 符号 表 中 删除 。 

列表 。 实 现 表 3.5.7 中 的 API: 


表 3.5.7 ”列表 数据 类 型 的 API 


Public class List<Item> implements Iterable<Item> 





ListO 创建 一 个 列表 
void addFront(Item item) 将 item 添加 到 列表 的 头 部 
void addBack(Item item) 将 item 添加 到 列表 的 尾部 
Item deleteFront() 删除 列表 头 部 的 元 素 


Item deleteBack() 删除 列表 尾部 的 元 素 
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( 续 ) 
Public class List<Item> implements Iterable<Item> 

void delete(Item item) 从 列表 中 删除 item 

void add(int i, Item item) 将 item 添加 为 列表 的 第 i 个 元 素 

Item delete(int i) 从 列表 中 删除 第 i 个 元 素 
boolean contains(Item item) 列表 中 是 否 存在 元 素 item 
boolean isEmptyO) 列表 是 否 为 空 

int size() 列表 中 元 素 的 总 数 


提示 ; 使 用 两 个 符号 表 ， 一 个 用 来 快速 定位 列表 中 的 第 i 个 元 素 ， 另 一 个 用 来 快速 根据 元 
素 查 找 。 ( Java 的 java.uti1.List 包含 类 似 的 方法 , 但 它 的 实现 的 操作 并 不 都 是 高 效 的 。 ) 
3.5.28 uniQueue。 创 建 一 个 类 似 于 队列 的 数据 类 型 ， 但 每 个 元 素 只 能 插入 队列 一 次 。 用 一 个 符号 表 来 
3 记录 所 有 已 经 被 插 人 的 元 素 并 忽略 所 有 将 它们 重新 插入 的 请 求 。 








3.5.29 支持 随机 访问 的 符号 表 。 创 建 一 个 数据 结构 ， 能 够 向 其 中 插入 键 值 对 ， 查 找 一 个 键 并 返回 相应 
的 值 以 及 删除 并 返回 一 个 随机 的 键 。 提 示 : 将 一 个 符号 表 和 一 个 随机 队列 结合 起 来 实现 该 数据 
512 结构 。 














图 实验 亚 


3.5.30 重复 元 素 ( 续 )。 使 用 3.5.2.1 节 的 dedup 过 滤器 重新 完成 练习 2.5.31。 比 较 两 种 解决 方法 的 运行 时 间 。 
然后 使 用 dedup 运行 试验 , 其 中 N=10”、10* 和 10”。 使 用 随机 的 1ong 值 重新 完成 试验 并 讨论 结果 。 

3.5.31 拼写 检查 。 将 本 书 网 站 上 的 dictionary:txt 文件 作为 命令 行 参数 ， 用 3.522 节 的 BlackFikter 程序 打 
印 出 从 标准 输入 接受 的 文本 文件 中 所 有 拼写 错误 的 单词 。 在 这 个 测试 中 分 别 使 用 RedB1ackBST、 
SeparateChainingHashST 和 LinearProbingHashST 处 理 WarAndPeace.txt ( 本 书 网 站 提供 ) 并 讨 
论 结果 。 

3.5.32 ”字典 。 在 一 个 性 能 优先 的 场景 中 研究 类 似 于 LookupCSV 用 例 的 性 能 。 请 设计 一 个 查询 生成 器 来 
代替 标准 输入 并 用 大 量 的 输入 和 查询 来 测试 用 例 的 性 能 。 

3.5.33 索引。 在 一 个 性 能 优先 的 场景 中 研究 类 似 于 Lookuplndex 用 例 的 性 能 。 请 设计 一 个 查询 生成 器 来 
代替 标准 输入 并 用 大 量 的 输入 和 查询 来 测试 用 例 的 性 能 。 

3.5.34 ”稀疏 向 量 。 用 实验 来 比较 使 用 稀疏 矩阵 和 使 用 标准 数组 实现 矩阵 向 量 乘法 的 性 能 。 

3.5.35 原始 数据 类 型 。 对 于 LinearProbingHashST 和 RedBlackBST， 评 估 使 用 原始 数据 类 型 来 表示 
Integer 和 Double 值 的 情况 。 如 果 在 一 张 巨型 的 符号 表 中 进行 大 量 的 查找 ， 这 么 做 能 节省 多 少 
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在 许多 计算 机 应 用 中 ， 由 相连 的 结 点 所 表示 的 模型 起 到 了 关键 的 作用 。 这 些 结 点 之 间 的 连接 很 
自然 地 会 让 人 们 产生 一 连 串 的 疑问 : 沿 着 这 些 连接 能 否 从 一 个 结 点 到 达 另 一 个 结 点 ? 有 多 少 个 结 点 
和 指定 的 结 点 相连 ?两 个 结 点 之 间 最 短 的 连接 是 哪 一 条 ? 

要 描述 这 些 问题 ， 我 们 要 使 用 一 种 抽象 的 数学 对 象 ， 叫 做 图 。 本 章 中 ， 我 们 会 详细 研究 图 的 基 
本 性 质 ， 为 学 习 各 种 算法 并 回答 这 种 类 型 的 疑问 作 好 准备 。 这 些 算法 是 解决 许多 重要 的 实际 问题 的 
基础 ， 没 有 优秀 的 算法 ， 这 些 问题 的 解决 无 法 想象 。 

图 论 作为 数学 领域 中 的 一 个 重要 分 支 已 经 有 数 百年 的 历史 了 。 人 们 发 现 了 图 的 许多 重要 而 实用 
的 性 质 ， 发 明了 许多 重要 的 算法 ， 其 中 许多 困难 问题 的 研究 仍然 十 分 活跃 。 本 章 中 ,我们 会 介绍 一 
系列 基础 的 图 算法 ， 它 们 在 各 种 应 用 中 都 十 分 重要 。 

和 我 们 已 经 研究 过 的 许多 其 他 问题 域 一 样 ， 关 于 图 的 算法 研究 相对 来 说 才 开始 不 久 。 尽 管 有 些 
基础 的 算法 在 几 个 世纪 前 就 已 发 现 了 ， 但 大 多 数 有 趣 的 结论 都 是 近 几 十 年 才 被 发 现 。 得 益 于 我 们 已 
经 学 习 过 的 那些 算法 ， 即 使 是 由 最 简单 的 图 论 算法 得 到 的 程序 也 是 很 有 用 的 ， 而 那些 我 们 将 要 学 习 
的 复杂 算法 则 都 是 已 知 的 最 优美 和 最 有 意思 的 算法 的 一 部 分 。 34 

为 了 展示 图 论 应 用 的 广泛 领域 ， 在 探索 这 片 富饶 之 地 之 前 ， 我 们 先 来 看 以 下 几 个 示例 。 515 

地 图 。 正 在 计划 旅行 的 人 也 许 想 知道 “从 普罗 维 登 斯 到 普林斯顿 的 最 短路 线 ”。 对 最 短路 径 上 
经 历 过 交通 堵塞 的 旅行 者 可 能 会 问 “ 从 普罗 维 登 斯 到 普林斯顿 的 哪 条 路 线 最 快 ? "要 回答 这 些 问题 ， 
我 们 都 要 人 处理 有 关 结 点 ( 十 字 路 口 ) 之 间 多 条 连接 (公路 ) 的 信息 。 

网 页 信息 。 当 我 们 在 浏览 网 页 时 ， 页 面 上 都 会 包含 其 他 网 页 的 引用 (链接 ) 。 通 过 单 击 链接 ， 
我 们 可 以 从 一 个 页 面 跳 到 另 一 个 页 面 。 整 个 互联 网 就 是 一 张 图 ， 结 点 是 网 页 ， 连 接 就 是 超 链接 。 图 
算法 是 帮助 我 们 在 网 络 上 定位 信息 的 搜索 引擎 的 关键 组 件 。 

电路 。 在 一 块 电路 板 上 ， 唱 体 管 、 电阻、 电容 等 各 种 元 件 是 精密 连接 在 一 起 的 。 我 们 使 用 计算 
机 来 控制 制造 电路 板 的 机 器 并 检查 电路 板 的 功能 是 否 正常 。 我 们 既 要 检查 短路 这 类 简单 问题 ， 也 要 
检查 这 幅 电路 图 中 的 导线 在 蚀刻 到 芯片 上 时 是 否 会 出 现 交叉 等 复杂 问题 。 第 一 类 问题 的 答案 仅 取决 
于 连接 ( 导线 ) 的 属性 ， 而 第 二 个 问题 则 会 涉及 导线 、 各 种 元 件 以 及 芯片 的 物理 特性 等 详细 信息 。 

任务 调度 。 商 品 的 生产 过 程 包含 了 许多 工序 以 及 一 些 限制 条 件 ， 这 些 条 件 会 决定 某 些 任务 的 先后 
次 序 。 如 何 安排 才能 在 满足 限制 条 件 的 情况 下 用 最 少 的 时 间 完 成 这 些 生 产 工 序 呢 ? 

商业 交易 。 零 售 商 和 人 金融 机 构 都 会 跟踪 市 场 中 的 买卖 信息 。 在 这 种 情形 下 ， 一 条 连接 可 以 表示 
现金 和 商品 在 买方 和 卖方 之 间 的 转移 。 在 此 情况 下 ， 理 解 图 的 连接 结构 原理 可 能 有 助 于 增强 人 们 对 
市 场 的 理解。 

配对 。 学 生 可 以 申请 加 入 各 种 机 构 ， 例 如 社交 俱乐部 、 大 学 或 是 医学 院 等 。 这 里 结 点 就 对 应 学 
生 和 机 构 ， 而 连接 则 对 应 递交 的 申请 。 我 们 希望 找到 申请 者 与 他 们 感 兴趣 的 空位 之 间 配 对 的 方法 。 
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计算 机 网 络 。 计 算 机 网 络 是 由 能 够 发 送 、 转 发 和 接收 各 种 消息 的 站 点 互相 连接 组 成 的 。 我 们 感 
兴趣 的 是 这 种 互联 结构 的 性 质 , 因为 我 们 希望 网 络 中 的 线路 和 交换 设备 能 够 高 效率 地 处 理 网 络 流量 。 

软件 。 编 译 器 会 使 用 图 来 表示 大 型 软件 系统 中 各 个 模块 之 间 的 关系 。 图 中 的 结 点 即 构成 整个 系统 
的 各 种 类 和 模块 ， 连 接 则 为 类 的 方法 之 间 的 可 能 调用 关系 ( 静态 分 析 ) ， 或 是 系统 运行 时 的 实际 调用 关 
系 (动态 分 析 ) 。 我 们 需要 分 析 这 幅 图 来 决定 如 何以 最 优 的 方式 为 程序 分 配 资源 。 

社交 网 络 。 当 你 在 使 用 社交 网 站 时 ， 会 和 你 的 朋友 之 间 建 立 起 明确 的 关系 。 这 里 ， 结 点 对 应 人 
而 连接 则 联系 着 你 和 你 的 朋友 或 是 关注 者 。 分析 这 些 社交 网 络 的 性 质 是 当前 图 算法 的 一 个 重要 应 用 。 
对 它 感 兴趣 的 不 止 是 社交 网 络 的 公司 ， 还 包括 政治 、 外 交 、 娱 乐 、 教 育 、 市 场 等 许多 其 他 机 构 ( 参 
见 表 4.0.1) 。 


表 4.0.1 图 的 典型 应 用 





应 用 结 点 连接 
地 图 十 字 路 口 公路 

网 络 内 容 网 页 超 链接 
电路 元 器 件 导线 
任务 调度 任务 限制 条 件 
商业 交易 客户 交易 
配对 学 生 申请 
计算 机 网 络 网 站 物理 连接 
软件 方法 调用 关系 
社交 网 络 人 友谊 关系 


这 些 示例 展示 了 图 作为 一 种 抽象 模型 的 应 用 范围 以 及 我 们 在 处 理 图 时 可 能 会 遇 到 的 各 种 计算 问 
题 。 人 们 研究 过 的 关于 图 的 问题 数 以 千 计 ， 但 它们 大 多 数 都 能 用 一 些 简单 的 图 模型 解决 一 一 本 章 我 
们 将 会 学 习 几 个 最 重要 的 模型 。 在 实际 应 用 中 ， 处 理 庞大 的 数据 是 很 常见 的 ， 因 此 解决 方法 是 否 可 
行 完 全 取决 于 算法 的 效率 。 

在 本 章 中 ,我 们 会 依次 学 习 4 种 最 重要 的 图 模型 : 无 向 图 ( 简单 连接 ) 、 有 向 图 ( 连接 有 方向 
性 ) 、 加 权 图 (连接 带 有 权 值 ) 和 加 权 有 向 图 ( 连接 既 有 方向 性 又 带 有 权 值 ) 。 
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4.1 无 向 图 
在 我 们 首先 要 学 习 的 这 种 图 模型 中 ， 边 ( edge ) 仅仅 是 两 个 顶点 ( vertex ) 之 间 的 连接 。 为 了 
和 其 他 图 模型 相 区 别 , 我 们 将 它 称 为 无 向 图 。 这 是 一 种 最 简单 的 图 模型 我 们 先 来 看 一 下 它 的 定义 。 


定义 。 图 是 由 一 组 顶点 和 一 组 能 够 将 两 个 顶点 相连 的 边 组 成 的 。 


就 定义 而 言 ,顶点 叫 什么 名 字 并 不 重要 ,但 我 们 需要 一 个 方法 来 指 代 这 些 顶 点 。 一 般 使 用 0 至 V1 
来 表示 一 张 含 有 了 个 顶点 的 图 中 的 各 个 顶点 。 这 样 约定 是 为 了 方便 使 用 数组 的 索引 来 编写 能 够 高 效 
访问 各 个 顶点 中 信息 的 代码 。 用 一 张 符号 表 来 为 顶点 的 名 字 和 0 到 V1 的 整数 值 建立 一 一 对 应 的 关 


系 并 不 困难 ( 请 见 4.1.7 节 ) ， 因 此 直接 使 用 数组 索引 作为 结 点 Q 
的 名 称 更 方便 且 不 失 一 般 性 ( 也 不 会 损失 什么 效率 )。 我 们 用 v-w By 
的 记 法 来 表示 连接 v 和 w 的 边 ,w-v 是 这 条 边 的 另 一 种 表示 方法 。 A QO 

在 绘制 一 幅 图 时 ， 用 圆圈 表示 项 点， 用 连接 两 个 项 点 的 线段 Le 


表示 边 ， 这 样 就 能 直观 地 看 出 图 的 结构 。 但 这 种 直觉 有 时 也 可 能 
会 误导 我 们 , 因为 图 的 定义 和 绘 出 的 图 像 是 无 关 的 。 例 如 , 图 4.1.1 
中 的 两 组 图 表示 的 是 同一 幅 图 ， 因 为 图 的 构成 只 有 (无 序 的 ) 顶 
点 和 边 (顶点 对 ) 。 

特殊 的 图 。 我 们 的 定义 允许 出 现 两 种 简单 而 特殊 的 情况 ， 
参见 图 4.1.2: 





口 自 环 ， 即 一 条 连接 一 个 顶点 和 其 自身 的 边 ; 图 4.1.1 同一 幅 图 的 两 种 表示 
口 连接 同一 对 顶点 的 两 条 边 称 为 平行 边 。 
数学 家 常常 将 含有 平行 边 的 图 称 为 多 重 图 ， 而 将 没有 平行 自 环 平行 边 

边 或 自 环 的 图 称 为 简单 图 。 一 般 来 说 ， 实 现 允 许 出 现 自 环 和 平 (一 办 

行 边 (因为 它们 会 在 实际 应 用 中 出 现 ) ， 但 我 们 不 会 将 它们 作 Ow 

为 示例 。 因 此 ， 我 们 用 两 个 顶点 就 可 以 指 代 一 条 边 了 。 特殊 的 图 

4.1.1 术语 表 is 


和 图 有 关 的 术语 非常 多 ,其 中 大 多 数 定义 都 很 简单 ， 我 们 在 这 里 集中 介绍 。 

当 两 个 顶点 通过 一 条 边 相连 时 ， 我 们 称 这 两 个 顶点 是 相 倒 的 ， 并 称 该 连接 依附 于 这 两 个 顶点 。 
某 个 顶点 的 度数 即 为 依附 于 它 的 边 的 总 数 。 子 图 是 由 一 幅 图 的 所 有 边 的 一 个 子 集 ( 以 及 它们 所 依附 
的 所 有 顶点 ) 组 成 的 图 。 许 多 计算 问题 都 需要 识别 各 种 类 型 的 子 图 ， 特 别 是 由 能 够 顺序 连接 一 系列 
顶点 的 边 所 组 成 的 子 图 。 


定义 。 在 图 中 ， 路 径 是 由 边 顺 序 连接 的 一 系列 顶 友 。 简 单 路 径 是 一 条 没有 重复 预 点 的 路 径 。 环 
是 一 条 至 少 含有 一 条 边 且 起 点 和 终点 相同 的 路 径 。 简 单 环 是 一 条 《除了 起 点 和 终点 必须 相同 之 
外 ) 不 含有 重复 顶点 和 边 的 环 。 路 径 或 者 环 的 长 度 为 其 中 所 包含 的 边 数 < 


大 多 数 情况 下 , 我 们 研究 的 都 是 简单 环 和 简单 路 径 并 会 省 略 掉 简 单 二 字 。 当 允许 重复 的 顶点 时 ， 
我 们 指 的 都 是 一 般 的 路 径 和 环 。 当 两 个 顶点 之 间 存 在 一 条 连接 双方 的 路 径 时 ， 我 们 称 一 个 顶点 和 另 
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一 个 顶点 是 连通 的 。 我 们 用 类 似 u-v-w-x 的 记 法 来 表示 u 到 x 的 一 条 路 径 ， 用 u-v-w-x-u 表示 从 
u 到 v 到 w 到 x 再 回 到 vu 的 一 条 环 。 我 们 会 学 习 几 种 查找 路 径 和 环 的 算法 。 另 外 ， 路 径 和 环 也 会 帮 
我 们 从 整体 上 考虑 一 幅 图 的 性 质 ， 参 见 图 4.1.3。 


定义 。 如 果 从 任意 一 个 顶点 都 存在 一 条 路 径 到 达 另 一 个 任意 顶 皮 ， 我 们 称 这 幅 图 是 连通 图 。 一 
幅 非 连通 的 图 由 若干 连通 的 部 分 组 成 ， 它 们 都 是 其 极 大 连通 子 图 。 


直观 上 来 说 ， 如 果 项 点 是 物理 存在 的 对 象 ， 例 如 绳 节 或 是 念珠 ， 而 边 也 是 物理 存在 的 对 象 ， 例 
如 绳子 或 是 电线 ， 那 么 将 任意 项 点 提起 ， 连 通 图 都 将 是 一 个 整体 ， 而 非 连 通 图 则 会 变 成 两 个 或 多 个 
部 分 。 一 般 来 说 ， 要 处 理 一 张 图 就 需要 一 个 个 地 处 理 它 的 连通 分 量 ( 子 图 ) 。 

无 环 图 是 一 种 不 包含 环 的 图 。 我 们 将 要 学 习 的 几 个 算法 就 是 要 找 出 一 幅 图 中 满足 一 定 条 件 的 无 
环 子 图 。 我 们 还 需要 一 些 术语 来 表示 这 些 结构 


定义 。 树 是 一 幅 无 环 连 通 图 。 互 不 相连 的 树 组 成 的 集合 称 为 森林 。 和 连通 图 的 生成 树 是 它 的 一 幅 
子 图 ， 它 含有 图 中 的 所 有 顶点 且 是 一 棵 树 。 图 的 生成 树 森 林 是 它 的 所 有 连通 子 图 的 生成 树 的 集 
合 ， 参 见 图 4.1.4 和 图 4.1.5。 


顶点 


长 度 为 边 |] 
5 的 环 i | 
长 度 为 
< 一 4 的 路 径 pe 
e: 17 条 边 

地 i 无 环 图 
3 的 和 7 

子 图 

连通 图 
图 4.1.3 图 的 详解 图 4.1.4 一 棵 树 图 4.1.5 ”生成 树 森林 


树 的 定义 非常 通用 , 稍 做 改动 就 可 以 变 成 用 来 描述 程序 行为 的 ( 函数 调用 层次 ) 模 型 和 数据 结构 ( 二 
又 查找 树 、2-3 树 等 ) 。 树 的 数学 性 质 很 直观 并 且 已 被 系统 地 研究 过 ， 因 此 我 们 就 不 给 出 它们 的 证 明了 。 
例如 ， 当 且 仅 当 一 幅 含 有 VV 个 结 点 的 图 G 满足 下 列 5 个 条 件 之 一 时 ， 它 就 是 一 棵 树 : 

口 G 有 广 1 条 边 且 不 含有 环 ; 

口 G 有 广 1 条 边 且 是 连通 的 ; 

口 C 是 连通 的 ， 但 删除 任意 一 条 边 都 会 使 它 不 再 连通 ; 

口 G 是 无 环 图 ， 但 添加 任意 一 条 边 都 会 产生 一 条 环 ; 

口 G 中 的 任意 一 对 顶点 之 间 仅 存在 一 条 简单 路 径 。 

我 们 会 学 习 几 种 寻找 生成 树 和 森林 的 算法 ， 以 上 这 些 性 质 在 分 析 和 实现 这 些 算法 的 过 程 中 扮演 
着 重要 的 角色 。 
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对 很 少 ; 而 在 稠密 图 中 ， 只 有 少 部 分 顶点 对 之 间 没 有 边 连 接 。 一 般 来 说 ， 如 果 一 幅 图 中 不 同 的 边 的 数 








量 只 占 数 族 的 一 小 部 分 ， 那么 我 们 就 认为 这 幅 图 是 稀 玻 的 ， 否 则 则 是 稠密 的 ， 参 见 图 4.1.6。 
这 条 经 验 规律 虽然 会 留 下 一 片 灰 色 地 带 ( 比如 当 边 的 数量 为 ~ cV” 时 ) ,但 实际 应 用 中 稀 下 图 和 秽 


密 图 之 间 的 区 别 是 十 分 明显 的 。 我 们 将 会 遇 到 的 应 用 使 用 的 几乎 都 是 稀 朴 图 

二 分 图 是 一 种 能 够 将 所 有 结 点 分 为 两 部 分 的 图 ， 其 中 图 的 每 条 边 所 连接 的 两 个 
同 的 部 分 。 图 4.1.7 即 为 一 幅 二 分 图 的 示例 ,其 中 红色 的 结 -个 集合 , 黑色 的 结 
二 分 图 会 出 现在 许多 场景 中 ， 我 们 会 在 本 节 的 最 后 详细 研究 其 中 的 一 个 场景 


都 分 别 属于 不 






稀 玻 图 (E=200) 秽 密 图 (E-1000) 





图 4.1.6 两 幅 图 (二 50) 图 4.1.7 二 分 图 ( 另 见 彩 插 ) 
现在 ,我 们 已 经 做 好 了 学 习 图 处 理 算法 的 准备 。 我 们 首先 会 研究 一 种 表示 图 的 数据 类 型 的 API 及 
其 实现 ， - 些 查 找 图 和 鉴别 连通 分 量 的 经 典 算法 。 最 后 ， 我 们 会 考虑 真实 世界 中 的 一 些 图 
的 应 用 ， 名 字 可 能 不 是 整数 并 且 会 含有 数目 庞大 的 h 边 


4.1.2 ”表示 无 向 图 的 数据 类 型 
要 开发 处 理 图 问题 的 各 种 算法 ， 我 们 首先 来 看 一 份 定义 了 图 的 基本 操作 的 API， 参 见 表 4.1.1。 
有 了 它 我 们 才能 完成 从 简单 的 基本 操作 到 解决 复杂 问题 的 各 种 任务 












] 的 顶 





表 4.1.1 无 向 图 的 API 





public class Graph 





GraphCint V) 创建 一 个 含有 VV 个 顶点 但 不 含有 边 的 图 
Graph(In in) 从 标准 输入 流 in 读 人 一 幅 图 
int VO 顶点 数 
int EO 边 数 
void addEdgeCint v, int w) 向 图 中 添加 一 条 边 v-w 
Iterable<Integer> adj(Cint v) 和 v 相 邻 的 所 有 顶点 
String _ toStringO) 对 象 的 字符 串 表示 





这 份 API 含有 两 个 构造 函数 ， 有 两 个 方法 用 来 分 别 返回 图 中 的 顶点 数 和 边 数 ， 有 一 个 方法 用 来 添 
加 一 条 边 ，toStringQ 方法 和 adjO 方法 用 来 允许 用 例 遍历 给 定 顶 点 的 所 有 相 邻 硕 点 ( 遍历 顺序 不 确 
定 ) 。 值 得 注意 的 是 ， 本 节 将 学 习 的 所 有 算法 都 基于 adj O 方法 所 抽象 的 基本 操作 

第 二 个 构造 函数 接受 的 输入 由 2E+2 个 整数 组 成 :首先 是 VY， 然 后 是 E， 再 然后 是 E 对 0 到 V1 
之 间 的 整数 ， 每 个 整数 对 都 表示 一 条 边 。 例 如 ， 我 们 使 用 了 由 图 4.1.8 中 的 tinyG.txt 和 mediumG.txt 
所 描述 的 两 个 示例 。 
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调用 Graph 的 几 段 用 例 代码 请 见 表 4.1.2。 


228 241 
226 231 





( 汪 有 1263 生 ) 


522 图 4.1.8 Graph 的 构造 函数 的 输入 格式 (两 个 示例 ) 

















表 4.1.2 最 常用 的 图 处 理 代码 


任 务 实现 
计算 v 的 度数 public static int degree(Graph G, int v) 
{ 








int degree = 0; 
for (int w : G.adj(v)) degree++i 
return degree; 





计算 所 有 顶点 的 最 大 度数 public static int maxDegree(Graph G) 
{ 


int max = 0; 
for (int v = 0; v < G.VO; v++) 
if (degree(G, v) > max) 
max = degree(G, Vv); 
return max; 








计算 所 有 项 点 的 平均 度数 public static double avgDegree(Graph G) 
{ return 2 * G.EO / GVO; } 

计算 自 环 的 个 数 public static int numberOfSelfLoops(Graph G) 
{ 


int count = 0; 
for (int v = 0; v < G.VO; v++) 
for (int w : G.adj(v)) 
if (v == W) count++i 
return count/2; // 每 条 边 都 被 记过 两 次 





图 的 邻接 表 的 字符 串 表示 ( Graph public String toString() 
的 实例 方法 ) { 


String s = V + " vertices, " + E+ 


for (int v = 0; v <.Vi v++) 


edges\n"; 





stv+ 
for Cint w 
stw+ 
si 
} 


return s; 
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4.1.2.1 图 的 几 种 表示 方法 


我 们 要 面 对 的 下 一 个 图 处 理 问题 就 是 用 哪 种 方式 ( 数据 结构 ) 来 表示 图 并 实现 这 份 API， 这 包 
含 以 下 两 个 要 求 : 


this.adj(v)) 

















口 它 必须 为 可 能 在 应 用 中 碰 到 的 各 种 类 型 的 图 
预 留 出 足够 的 空间 ; 
口 Graph 的 实例 方法 的 实现 一 定 要 快 一 一 它们 
是 开发 处 理 图 的 各 种 用 例 的 基础 。 
这 些 要 求 比较 模糊 ， 但 它们 仍然 能 够 帮助 我 们 
在 三 种 图 的 表示 方法 中 进行 选择 。 
口 邻接 矩阵。 我 们 可 以 使 用 一 个 F 乘 7 的 布尔 
矩阵。 当 顶 点 v 和 顶点 w 之 间 有 相连 接 的 边 
时 ,定义 v 行 w 列 的 元 素 值 为 true， 否 则 为 
false。 这 种 表示 方法 不 符合 第 一 个 条 件 一 一 
含有 上 百 万 个 顶点 的 图 是 很 常见 的 ， 大 个 布尔 
值 所 需 的 空间 是 不 能 满足 的 。 
口 边 的 数组 。 我 们 可 以 使 用 一 个 Edge 类 , 它 
含有 两 个 int 实例 变量 。 这 种 表示 方法 很 简 
洁 但 不 满足 第 二 个 条 件 一 一 要 实现 adj() 需 
要 检查 图 中 的 所 有 边 。 
口 邻接 表 数 组 。 我 们 可 以 使 用 一 个 以 顶点 为 索引 
的 列表 数组 ， 其 中 的 每 个 元 素 都 是 和 该 
邻 的 顶点 列表 ， 人 参见 图 419。 这 种 数据 结构 能 
够 同时 满足 典型 应 用 所 需 的 以 上 两 个 条 件 ,我 
们 会 在 本 章 中 一 直 使 用 它 
除了 这 些 性 能 目标 之 外 ， 经 过 续 密 的 检查 ， 我 
们 还 发 现 了 另 一 些 在 某 些 应 用 中 可 能 会 很 重要 的 东 
西 ,例如 , 允许 存在 平行 边 相当 于 排除 了 邻接 矩阵 
因为 邻接 矩阵 无 法 表示 它们 。 
4.1.2.2 ”邻接 表 的 数据 结构 
非 稠密 图 的 标准 表示 称 为 邻接 表 的 数据 结构 ， 
它 将 每 个 顶点 的 所 有 相 邻 顶点 都 保存 在 该 顶点 对 应 
的 元 素 所 指向 的 一 张 链表 中 。 我 们 使 用 这 个 数 
是 为 了 快速 访问 给 定 顶 点 的 邻接 顶点 列表 。 这 里 使 
用 13 节 中 的 Bag 抽象 数据 类 型 来 实现 这 个 链表 ， 
这 样 我 们 就 可 以 在 常数 时 间 内 添加 新 的 边 或 遍历 任 
意 顶 点 的 所 有 相 邻 顶点 。 后 面 框 注 “Craph 数 据 类 型 ” 
中 的 Graph 类 的 实现 就 是 基于 这 种 方法 ， 而 图 4.1.9 
中 所 示 的 正 是 用 这 种 方法 处 理 tinyGitxt 所 得 到 的 数 
据 结构 。 要 添加 一 条 连接 v 与 w 的 边 ， 我 们 将 w 添 
加 到 v 的 邻接 表 中 并 把 v 添加 到 w 的 邻接 表 中 。 因 
此 ， 在 这 个 数据 结构 中 每 条 边 都 会 出 现 两 次 。 这 种 
Graph 的 实现 的 性 能 有 如 下 特点 : 
口 使 用 的 空间 和 V+E 成 正比 ; 
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V~~13 % java Graph tinyG.txt 
13 aE 13 vertices, 13 edges 
0:6215 








图 4.1.10 由 边 得 到 的 邻接 表 ( 另 见 彩 插 ) 
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口 添加 一 条 边 所 需 的 时 间 为 常数 ; 
口 遍历 顶点 v 的 所 有 相 邻 顶点 所 需 的 时 间 和 v 的 度数 成 正比 ( 处 理 每 个 相 邻 顶点 所 需 的 时 间 
为 常数 ) 。 

对 于 这 些 操作 ， 这 样 的 特性 已 经 是 最 优 的 了 ， 这 已 经 可 以 满足 图 处 理应 用 的 需要 ， 而 且 支持 平行 
边 和 自 环 ( 我 们 不 会 检测 它们 ) 。 注 意 ， 边 的 插入 顺序 决定 了 Graph 的 邻接 表 中 顶点 的 出 现 顺序 ， 
参见 图 4.1.10。 多 个 不 同 的 邻接 表 可 能 表示 着 同一 幅 图 。 当 使 用 构造 函数 从 标准 输入 中 读 入 一 幅 图 时 ， 
这 就 意味 着 输入 的 格式 和 边 的 顺序 决定 了 Graph 的 邻接 表 数 组 中 顶点 的 出 现 顺序 。 因 为 算法 在 使 用 
adj() 来 处 理 所 有 相 邻 的 顶点 时 不 会 考虑 它们 在 邻接 表 中 的 出 现 顺序 ， 这 种 差异 不 会 影响 算法 的 正确 
性 ， 但 在 调试 或 是 跟踪 邻接 表 的 轨迹 时 我 们 还 是 需要 注意 这 一 点 。 为 了 简化 操作 ， 假 设 Graph 有 一 
个 测试 用 例 来 从 命令 行 参数 指定 的 文件 中 读 取 一 幅 图 并 将 它 打 印 出 来 (参见 表 4.1.2 中 的 toStringO) 
方法 的 实现 ), 以 显示 邻接 表 中 的 各 个 顶点 的 出 现 顺序 , 这 也 是 算法 处 理 它们 的 顺序 ( 请 见 练习 4.1.7 )。 





Graph 数据 类 型 
public class Graph 
{ 
private final int Vi // 顶点 教 目 
private int E; // 边 的 教 目 


private Bag<Integer>[] adj;  // 和 鱼 接 去 
public GraphCint V) 
{ 


this.V = Vi this.E = 0; 

adj = (Bag<Integer>[]) new Bag[V]; // 创建 久 接 表 

for (int v= 0; v < V; v++) // 将 所 有 链表 初始 化 为 空 
adj[v] = new Bag<Integer>(); 


} 
public Graph(In in) 
{ 


this(in. readInt O)); // 读 取 V 并 将 图 初始 化 
int E = in.readIntO; // 读 取 E 
for (int 1 = 0; 1 < E; i++) 
{ // 添加 一 条 边 
int v = in.readIntO 1; // 读 取 一 个 顶点 
int w = in.readInt(); // 读 取 男 一 个 顶点 
addEdge(v, w); // 小 加 一 条 连接 它们 的 边 


} 

public int VO { return V; } 

public int EO { return E; } 

public void addEdgeCint v, int w) 

{ 
adj[v] .add(w); // 将 Ww 添加 到 V 的 链表 中 
adj[w] .add(v); // 将 V 添 加 到 W 的 链表 中 
Et+; 


} 
public Iterable<Integer> adjCint v) 
{ return adj[v]; } 


这 份 Graph 的 实现 使 用 了 一 个 由 项 点 索引 的 整 型 链表 数组 。 每 条 边 都 会 出 现 两 次 ， 即 当 存在 一 条 连 
接 v 与 w 的 边 时 , w 会 出 现在 v 的 链表 中 ，v 也 会 出 现在 w 的 链表 中 。 第 二 个 构造 函数 从 输入 流 中 读 取 一 
幅 图 ， 开 头 是 V, 然后 是 EE， 再 然后 是 一 列 整数 对 ， 大 小 在 0 到 -1 之 间 。toString() 方法 请 见 表 4.1.2。 
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在 实际 应 用 中 还 有 一 些 操作 可 能 是 很 有 用 的 ， 例 如 : 





样 修改 之 后 就 不 需要 约定 顶点 名 必须 是 整数 了 ) 。 我 们 可 能 还 需要 : 

口 删除 一 条 边 ; 

口 检查 图 是 否 含有 边 v-w， 

要 实现 这 些 方法 ( 不 允许 存在 平行 边 ) ， 我 们 可 能 需要 使 用 SET 代替 Bag 来 实现 邻接 表 。 我 们 
称 这 种 方法 为 邻接 集 。 本 书 中 不 会 使 用 这 些 数据 结构 ， 因 为 : 

口 用 例 代码 不 需要 添加 顶点 、 删 除 顶 点 和 边 或 是 检查 一 条 边 是 否 存在 ; 

口 当 用 例 代码 需要 进行 上 述 操作 时 ， 由 于 频率 很 低 或 者 相关 的 邻接 链表 很 短 ， 因此 可 以 直接 使 

用 穷 举 法 遍历 链表 来 实现 ; 

口 使 用 SET 和 ST 会 令 算法 的 实现 变 得 更 加 复杂 ， 分 散 了 读者 对 算法 本 身 的 注意 力 ; 

口 在 某 些 情况 下 ， 它 们 会 使 性 能 损失 logy。 

使 我 们 的 算法 适应 其 他 设计 ( 例如 ， 不 允许 出 现 平行 边 或 是 自 环 ) 并 避免 不 必要 的 性 能 损失 并 
不 困难 。 表 4.1.3 总 结 了 之 前 提 到 过 的 所 有 其 他 实现 方法 的 性 能 特点 。 常见 的 应 用 场景 都 需要 处 理 
庞大 的 稀 玻 图 ， 因 此 我 们 会 一 直 使 用 邻接 表 


表 41.3 典型 Graph 实现 的 性 能 复杂 度 








数据 结构 所 需 空间 添加 一 条 边 v-w 。 检查 w 和 v 是 否 相 邻 遍历 v 的 所 有 相 邻 顶点 
边 的 列表 E | E E 

邻接 矩阵 lg 1 1 V 

邻接 表 E+V 1 degree(v) degree(v) 

邻接 集 Err logy logy logVrdegree(v) 


4.1.2.3 图 的 处 理 算法 的 设计 模式 

因为 我 们 会 讨论 大 量 关于 图 处 理 的 算法 ， 所 以 设计 的 首要 目标 是 将 图 的 表示 和 实现 分 离开 来 。 
为 此 ， 我 们 会 为 每 个 任务 创建 一 个 相应 的 类 ， 用 例 可 以 创建 相应 的 对 象 来 完成 任务 。 类 的 构造 函数 
一 般 会 在 预 处 理 中 构造 各 种 数据 结构 ， 以 有 效 地 响应 用 例 的 请 求 。 典 型 的 用 例 程序 会 构造 一 幅 图 ， 
将 图 传递 给 实现 了 某 个 算法 的 类 ( 作为 构造 函数 的 参数 ), 然后 调用 用 例 的 方法 来 获取 图 的 各 种 性 质 。 
作为 热身 ， 我 们 先 来 看 看 这 份 API， 参 见 表 4.1.4 


表 4.1.4 图 处 理 算法 的 API (热身 ) 


public class Search 





Search(Graph G, int s) 找到 和 起 点 s 连通 的 所 有 顶点 
boolean markedCint v) Vv 和 s 是 连通 的 吗 
int countO 与 连通 的 顶点 总 数 





我 们 用 起 点 (source ) 区 分 作为 参数 传递 给 构造 函数 的 顶点 与 图 中 的 其 他 顶点 。 在 这 份 API 中， 
构造 函数 的 任务 是 找到 图 中 与 起 点 连通 的 其 他 顶点。 用 例 可 以 调用 markedO 方法 和 count CO 方 
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法 来 了 解 图 的 性 质 。 方 法 名 marked() 指 的 是 这 种 基本 算法 使 用 的 一 种 实现 方式 ， 本 章 中 会 一 直 

使 用 到 这 种 算法 : 在 图 中 从 起 点 开始 沿 着 路 径 到 达 其 他 项 点 并 标记 每 个 路 过 的 顶点 。 后 面 框 注 中 

的 图 处 理 用 例 TestSearch 接受 由 命令 行 得 到 的 一 个 输入 流 的 名 称 和 起 始 结 点 的 编号 ， 从 输入 流 

中 读 取 一 幅 图 ( 使 用 Graph 的 第 二 个 构造 函数 ) , 用 这 幅 图 和 给 定 的 起 始 结 点 创建 一 个 Search 对 象 ， 

然后 用 markedQ 打印 出 图 中 和 起 点 连通 的 所 有 顶点 。 它 也 调用 了 count() 并 打印 了 图 是 否 是 连通 
528| 的 ( 当 且 仅 当 搜索 能 够 标记 图 中 的 所 有 项 点 时 图 才 是 连通 的 ) 。 











public class TestSearch 


{ 


% java TestSearch tinyG.txt 0 
0123456 
NOT connected 


% java TestSearch tinyG.txt 9 
9 10 11 12 


public static void main(String[] args) 


NOT connected 


Graph G = new Graph(new In(args[0])); 








int s = Integer.parseInt(args[1]); 的 全 
Search search = new Search(G, s); =B pg 
pat 
for Cint v = ol v < GVO; vit) 05 @ 
if (search.marked(v)) 43 
Stdout.printCv + ” "); 01 WG (6) 
StdOut .print1nO; 9 了 
if (search.countO != G.VO) 5 4 (3 (SX 
StdOut .print ("NOT "); 02 6 和 SO OD 
StdOut.printin("connected"); 11 12 
00 
} 78 
911 
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我 们 已 经 见 过 Search API 的 一 种 实现 : 第 1 章 中 的 union-find 算法 。 它 的 构造 函数 会 创建 一 
个 UF 对 象 ， 对 图 中 的 每 一 条 边 进行 一 次 union() 操作 并 调用 connected(s,v) 来 实现 marked(v) 
方法 。 实 现 count0) 方法 需要 一 个 加 权 的 UF 实现 并 扩展 它 的 API， 以 便 使 用 count() 方法 返回 


wt[find(v)] (请 见 练习 4.1.8 ) 。 这 种 实现 简单 而 高 效 , 但 下 面 我 
们 要 学 习 的 实现 还 可 以 更 进一步 。 它 基于 的 是 深度 优先 搜索 ( DFS ) 
的 。 这 是 一 种 重要 的 递归 方法 ， 它 会 沿 着 图 的 边 寻 找 和 起 点 连通 的 
所 有 顶点 。 深 度 优先 搜索 是 本 章 中 将 学 习 的 好 几 种 关于 图 的 算法 的 
基础 。 


4.1.3 深度 优先 搜索 

我 们 常常 通过 系统 地 检查 每 一 个 顶点 和 每 一 条 边 来 获取 图 的 各 
种 性 质 。 要 得 到 图 的 一 些 简单 性 质 〈 比如 ， 计 算 所 有 顶点 的 度数 ) 
很 容易 ， 只 要 检查 每 一 条 边 即 可 ( 任意 顺序 ) 。 但 图 的 许多 其 他 性 
质 和 路 径 有 关 ， 因 此 一 种 很 自然 的 想法 是 沿 着 图 的 边 从 一 个 顶点 移 
动 到 另 一 个 顶点 。 尽 管 存在 各 种 各 样 的 处 理 策略 ， 但 后 面 将 要 学 习 
的 几乎 所 有 与 图 有 关 的 算法 都 使 用 了 这 个 简单 的 抽象 模型 ， 其 中 最 


迷宫 


顶点 


图 4.1.11 等 价 的 迷宫 模型 


简单 的 就 是 下 面 介绍 的 这 种 经 典 的 方法 。 
4.1.3.1 走 迷 宫 

思考 图 的 搜索 过 程 的 一 种 有 益 的 方法 是 ， 考 虑 另 一 个 和 它 等 
价 但 历史 悠久 而 又 特别 的 问题 一 在 一 个 由 各 种 通道 和 路 口 组 成 
的 迷宫 中 找到 出 路 。 有 些 迷宫 的 规则 很 简单 ， 但 大 多 数 迷 宫 则 需 
要 很 复杂 的 策略 才 行 。 用 迷宫 代替 图 、 通 道 代替 边 、 路 口 代替 顶 
点 仅仅 只 是 一 些 文字 游戏 ， 但 就 目前 来 说 ， 这 么 做 可 以 帮助 我 们 
直观 地 认识 问题 ， 参 见 图 4.1.11。 探 索 迷 宫 而 不 迷路 的 一 种 古老 
办 法 ( 至 少 可 以 追溯 到 忒 修 斯 和 米 诺 陶 的 传说 ) 叫 做 Tremaux 搜索 
参见 图 4.1.12。 要 探索 迷宫 中 的 所 有 通道 ， 我 们 需要 ; 

口 选择 一 条 没有 标记 过 的 通道 ， 在 你 走 过 的 路 上 铺 一 条 

绳子 ; 

口 标记 所 有 你 第 一 次 路 过 的 路 口 和 通道 ; 

口 当 来 到 一 个 标记 过 的 路 口 时 ( 用 绳子 ) 回 退 到 上 个 路 口 ; 

口 当 回 退 到 的 路 口 已 没有 可 走 的 通道 时 继续 回 退 。 

绳子 可 以 保证 你 总 能 找到 一 条 出 路 ,标记 则 能 保证 你 不 会 
两 次 经 过 同一 条 通道 或 者 同一 个 路 口 。 要 知道 是 否 完全 探索 了 
整个 迷宫 需要 的 证 明 更 复杂 ， 只 有 用 图 搜索 才能 够 更 好 地 处 理 
问题 。Tremaux 搜索 很 直接 ， 但 它 与 完全 搜索 一 张 图 仍然 稍 有 
不 同 ， 因 此 我 们 接 下 来 看 看 图 的 搜索 方法 。 








public class DepthFirstSearch 
{ 
private boolean[] marked; 
private int count; 
public DepthFirstSearch(Graph G, int s) 
{ 


marked = new boolean[G.VO); 
dfs(G, s); 


private void dfs(Graph G6, int v) 


marked[v] = true; 
Count++; 
for (int w : G.adj(v)) 
if (Imarked[w]) dfs(G, w); 
} 


public boolean markedCint w) 
{ return marked[w]; } 


public int countO 
{ return count; } 


深度 优先 搜索 
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4.1.3.2 热身 

搜索 连通 图 的 经 典 递归 算法 ( 遍历 所 有 的 顶点 和 边 ) 和 Tremaux 搜索 类 似 , 但 描述 起 来 更 简单 。 
要 搜索 一 幅 图 ， 只 需 用 一 个 递归 方法 来 遍历 所 有 顶点 。 在 访问 其 中 一 个 顶点 时 : 

口 将 它 标记 为 已 访问 ; 

口 递归 地 访问 它 的 所 有 没有 被 标记 过 的 邻居 顶点 。 

这 种 方法 称 为 深度 优先 搜索 ( DFS ) 。Search API 的 一 种 实现 使 用 了 这 种 方法 ， 如 深度 优先 
搜索 框 注 所 示 。 它 使 用 一 个 boolean 数组 来 记录 和 起 点 连通 的 所 有 顶点 。 递 归 方 法 会 标记 给 定 的 顶 
点 并 调用 自己 来 访问 该 顶点 的 相 邻 顶点 列表 中 所 有 没有 被 标记 过 的 顶点 。 如 果 图 是 连通 的 ， 每 个 邻 
接 链表 中 的 元 素 都 会 被 检查 到 。 








命题 A。 深 度 优 先 搜索 标 记 与 起 点 连通 的 所 有 顶点 所 需 的 时 间 和 项 友 的 度数 之 和 成 正比 。 


证 明 。 首 先 ， 我 们 要 证 明 这 个 算法 能 够 标记 与 起 点 5 连通 的 所 有 顶点 ( 且 不 会 标记 其 他 顶点 ) 。 
因为 算法 仅 通过 边 来 寻找 顶点， 所 以 每 个 被 标记 过 的 顶点 都 与 5 连通 。 现 在， 假设 某 个 没有 被 
标记 过 的 顶点 w 与 5 连通 。 因 为 s 本 身 是 被 标记 过 的 ， 由 s 到 w 的 任意 一 条 路 径 中 至 少 有 一 条 
边 连接 的 两 个 顶点 分 别 是 被 标记 过 的 和 没有 被 标记 过 的 ， 汪 如 v-x。 根据 算法 ， 在 标记 了 v 之 
后 必然 会 发 现 X， 因 此 这 样 的 边 是 不 存在 的 。 前 后 矛盾 。 每 个 顶点 都 只 会 被 访问 一 次 保证 了 时 





间 上 限 (检查 标记 的 耗 时 和 度数 成 正比 ) 。 
4.1.3.3 单 向 通道 
代码 中 方法 的 调用 和 返回 机 制 对 应 迷宫 中 绳子 。 tinycG.txt 。。。 标准 而 法 

的 作用 当 已 经 处 理 过 依附 于 一 个 顶点 的 所 有 边 时 ~、6 @ © 
( 搜索 了 路 口 连 接 的 所 有 通道 ) ， 我 们 就 只 能 “ 返 He 97 | 
回 ” (retum， 两 者 的 意义 相同 ) 。 为 了 更 好 地 与 迷 2 4 G) GY @) 
官 的 Tremaux 搜索 对 应 起 来 ， 我 们 可 以 想象 一 座 完 和 人 
全 由 单 向 通道 构造 的 迷 官 ( 每 个 方向 都 有 一 个 通道 )。 01 se loath 
和 在 迷宫 中 会 经 过 一 条 通道 两 次 (方向 不 同 ) 一 样 ， 35 NO 
在 图 中 我 们 也 会 路 过 每 条 边 两 次 ( 在 它 的 两 个 端点 0°02 © Z| 
各 一 次 ) 。 在 Tremaux 搜索 中 ， 要 么 是 第 一 次 访问 Be © 
一 条 边 ， 要 么 是 沿 着 它 从 一 个 被 标记 过 的 顶点 退回 。 入 接 表 
在 无 向 图 的 深度 优先 搜索 中 ， 在 碰 到 边 v-w 时 ， 要 5 








么 进行 递归 调用 (w 没有 被 标记 过 ) ， 要 么 跳 过 这 
条 边 《w 已 经 被 标记 过 ) 。 第 二 次 从 另 一 个 方向 wv 。 允 
过 到 这 条 边 时 ， 总 是 会 忽略 它 ， 因 为 它 的 另 一 端 v 
肯定 已 经 被 访问 过 了 ( 在 第 一 次 遇 到 这 条 边 的 时 候 )。 
4.1.3.4 ”跟踪 深度 优先 搜索 

通常 ， 理 解 算法 的 最 好 方法 是 在 一 个 简单 的 例 
子 中 跟踪 它 的 行为 。 深 度 优先 算法 尤其 是 这 样 。 在 
跟踪 它 的 轨迹 时 ， 首 先 要 注意 的 是 ， 算 法 遍历 边 和 
访问 顶点 的 顺序 与 图 的 表示 是 有 关 的 ， 而 不 只 是 与 而 和 过 二 种 秆 通 的 元 而 贡 
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图 的 结构 或 是 算法 有 关 。 因 为 深度 优先 
搜索 只 会 访问 和 起 点 连通 的 顶点 ， 所 以 
使 用 图 4.1.13 所 示 的 一 幅 小 型 连通 图 为 
例 。 在 示例 中 ， 顶 点 2 是 顶点 0 之 后 第 
一 个 被 访问 的 顶点 ， 因 为 它 正 好 是 0 的 
邻接 表 的 第 一 个 元 素 。 要 注意 的 第 二 点 
是 ， 如 前 文 所 述 ， 深 度 优先 搜索 中 每 条 
边 都 会 被 访问 两 次 ， 且 在 第 二 次 时 总 会 
发 现 这 个 顶点 已 经 被 标记 过 。 这 意味 着 
深度 优先 搜索 的 轨迹 可 能 会 比 你 想象 的 
长 一 倍 ! 示例 图 仅 含有 8 条 边 ， 但 需 
要 追踪 算法 在 邻接 表 的 16 个 元 素 上 的 
4.1.3.5 深度 优先 搜索 的 详细 轨迹 
图 4.1.14 显示 的 是 示例 中 每 个 顶点 
被 标记 后 算法 使 用 的 数据 结构 ， 起 点 为 
项 点 0。 查 找 开 始 于 构造 函数 调用 递归 
的 dfsQ 来 标记 和 访问 顶点 0， 后续 处 
理 如 下 所 述 。 
口 因为 顶点 2 是 0 的 邻接 表 的 第 一 
个 元 素 且 没有 被 标记 过 ,dfs() 
递归 调用 自己 来 标记 并 访问 顶点 
2 (效果 是 系统 会 将 顶点 0 和 0 
的 邻接 表 的 当前 位 置 压 入 栈 中 ) 。 
口 现在 ,顶点 0 是 2 的 邻接 表 的 第 
一 个 元 素 且 已 经 被 标记 过 了 ， 因 
此 dfs() 跳 过 了 它 。 接 下 来 ， 顶 
点 1 是 2 的 邻接 表 的 第 二 个 元 素 
且 没有 被 标记 ，dfs() 递归 调用 
自己 来 标记 并 访问 顶点 1。 
口 对 顶点 1 的 访问 和 前 面 有 所 不 同 : 
因为 它 的 邻接 表 中 的 所 有 顶点 (0 
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dfs(0) 0IT 01215 
1 102 
2 20134 
3| 3|542 
4 4 32 
5 5 30 
dfs(2) olT olz15 
检查 0 Li 1lo2 
2T 20134 
3 3|542 
4 4|32 
5 5 30 
dfs(1) oT 0 3 
检查 0 1T 1 02 
检查 2 2IT 2 134 
完 3 31542 
wi 4 4 32 
5 5130 
dfs(3) @ OT di2is 
LT 1 
I@) 2IT 2 34 
3|T 31542 
|! 4| 4|32 
(5) 5 5130 
dfs(5) olT 0l715s 
检查 3 1T 1 
检查 0 2T 2 4 
和 和 3T 3l542 
本 4 4132 
5 T 5 30 
dfs(4) 
oT 0 15 
检查 3 1T 1 
检查 2 2IT 2 4 
en > HEE 
检查 2 ©®=S sir $ 
3 完成 
检查 4 
2 完成 
检查 工 
检查 5 
0 完成 


图 4.1.14 使 用 深度 优先 搜索 的 轨迹 ， 寻找 所 有 和 顶点 0 
连通 的 顶点 ( 另 见 彩 插 ) 


和 2 ) 都 已 经 被 标记 过 了 ， 因 此 不 需要 再 进行 递归 ， 方 法 从 dfs(1) 中 返回 。 下 一 条 被 检查 的 
边 是 2-3 ( 在 2 的 邻接 表 中 顶点 1 之 后 的 顶点 是 3) ， 因 此 dfsQ 递归 调用 自己 来 标记 并 访 


间 顶 点 3。 


口 顶点 5 是 3 的 邻接 表 的 第 一 个 元 素 且 没有 被 标记 ， 因 此 dfs() 递归 调用 自己 来 标记 并 访问 


顶点 5。 


口 顶点 5 的 邻接 表 中 的 所 有 顶点 ( 3 和 0 ) 都 已 经 被 标记 过 了 ， 因 此 不 需要 再 进行 递归 。 
口 顶点 4 是 3 的 邻接 表 的 下 一 个 元 素 且 没有 被 标记 过 ， 因 此 dfs() 递归 调用 自己 来 标记 并 访 
问 项 点 4。 这 是 最 后 一 个 需要 被 标记 的 顶点 。 
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口 在 顶点 4 被 标记 了 之 后 ,dfs ( ) 会 检查 它 的 邻接 表 ， 然后 再 检查 3 的 邻接 表 ， 然 后 是 2 的 邻接 表 ， 
然后 是 0 的 ， 最 后 发 现 不 需要 再 进行 任何 递归 调用 ， 因 为 所 有 的 项 点 都 已 经 被 标记 过 了 。 

这 种 简单 的 递归 模式 只 是 一 个 开始 一 一 深度 优先 搜索 能 够 有 效 处 理 许多 和 图 有 关 的 任务 。 例 如 ， 
本 节 中 ， 我们 已 经 可 以 用 深度 优先 搜索 来 解决 在 第 1 章 首次 提 到 的 一 个 问题 。 

连通 性 。 给 定 一 幅 图 ， 回 答 “ 两 个 给 定 的 顶点 是 否 连 通 ? ”或 者 “图 中 有 多 少 个 连通 子 图 ? ” 
等 类 似 问题 。 

我 们 可 以 轻易 地 用 处 理 图 问题 的 标准 设计 模式 给 出 这 些 问题 的 答案 ， 还 要 将 这 些 解答 与 在 1.5 
节 中 学 习 的 union-find 算法 进行 比较 。 

问题 “两 个 给 定 的 项 点 是 否 连 通 ? ”等 价 于 “两 个 给 定 的 顶点 之 间 是 否 存在 一 条 路 径 ? ”， 也 
许 也 可 以 叫做 路 径 检 测 问题 。 但 是 ， 在 1.5 节 学 习 的 union-find 算法 的 数据 结构 并 不 能 解决 找 出 这 
样 一 条 路 径 的 问题 。 深度 优先 搜索 是 我 们 已 经 学 习 过 的 几 种 方法 中 第 一 个 能 够 解决 这 个 问题 的 算法 。 
它 能 够 解决 的 另 一 个 问题 如 下 所 述 。 

单 点 路 径 。 给 定 一 幅 图 和 一 个 起 点 s, 回答 “从 s 到 给 定 目的 顶点 v 是 否 存在 一 条 路 径 7 如 果 有 ， 
找 出 这 条 路 径 。” 等 类 似 问题 。 

深度 优先 搜索 算法 之 所 以 极为 简单 ， 是 因为 它 所 基于 的 概念 为 人 所 熟知 并 且 非 常 容易 实现 。 事 
实 上 ， 它 是 一 个 既 小 巧 而 又 强大 的 算法 ， 研 究 人 员 用 它 解决 了 无 数 困难 的 问题 。 上 述 两 个 问题 只 是 
我 们 将 要 研究 的 许多 问题 的 开始 。 


4.1.4 寻找 路 径 
单 点 路 径 问题 在 图 的 处 理 领域 中 十 分 重要 。 根 据 标准 设计 模式 ， 我 们 将 使 用 如 下 API ( 请 见 
表 4.1.5) 。 


表 4.1.5 路 径 的 API 


public class Paths 





Paths(Graph G, int 5) 在 G6 中 找 出 所 有 起 点 为 s 的 路 径 
boolean hasPathTo(Cint v) 是 理 存在 从 s 到 v 的 路 径 
Iterable<Integer> pathTo(int v) s 到 v 的 路 径 ， 如 果 不 存 在 则 返回 nu11 


构造 函数 接受 一 个 起 点 s 作为 参数 ， 








计算 s 到 与 s 连通 的 每 个 顶点 之 间 的 路 public static void main(String[] args) 
和 点 5 创 时 { 
径 。 在 为 起 点 5 创建 了 Paths 对 象 后 ， Graph G = new Graph(new In(args[0])); 
用 例 可 以 调用 pathTo() 实例 方法 来 遍历 int s = Integer.parseInt(args[1]); 
从 s 到 任意 和 s 连通 的 顶点 的 路 径 上 的 Paths search = new Paths(G, s); 
for (int v = 0; v < GVO; v++) 
所 有 顶点 。 现 在 暂时 查找 所 有 路 径 ， 以 
会 j 某 些 StdOut.print(s + " to " +v + ": ") 
后 会 实现 只 查找 具有 某 些 属性 的 路 径 。 Pe 
> 和 for (int x : search.pathTo(v)) 
% java Paths tinyCG.txt 0 if (x == 5) StdOut.print(x); 
O00: 0 else StdOut.print("-" + x); 
0 0 Le-0-34 StdOut.print1nO; 
0 to 2: 0-2 $ 
0 to 3: 0: } 
0 to 4: 0 
0 to 5: 0-: 





Paths 实 现 的 测试 用 例 
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上 一 页 右 下 角 框 注 中 的 用 例 从 输入 流 中 读 取 了 一 个 图 并 从 命令 行 得 到 一 个 起 点 ， 然 后 打印 出 从 起 点 
到 与 它 连通 的 每 个 顶点 之 间 的 一 条 路 径 。 
4.1.4.1 实现 

算法 4.1 基于 深度 优先 搜索 实现 了 Paths。 它 扩展 了 4.1.3.2 节 中 的 热身 代码 DepthFirs- 
tsSearch， 添 加 了 一 个 实例 变量 edgeTo[] 整 型 数组 来 起 到 Tremaux 搜索 中 绳子 的 作用 。 这 个 数组 
可 以 找到 从 每 个 与 s 连通 的 顶点 回 到 s 的 路 径 。 它 会 记 住 每 个 顶点 到 起 点 的 路 径 ， 而 不 是 记录 当前 
顶点 到 起 点 的 路 径 。 为 了 做 到 这 一 点 ， 在 由 边 v-w 第 一 次 访问 任意 w 时 ,将 edgeTo[w] 设 为 v 来 
记 住 这 条 路 径 。 换 句 话说，v-w 是 从 s 到 w 的 路 径 上 的 最 后 一 条 已 知 的 边 。 这 样 ， 搜 索 的 结果 是 一 
棵 以 起 点 为 根 结 点 的 树 ，edgeTo[] 是 一 棵 由 父 链接 表示 的 树 。 算 法 4.1 的 代码 的 右 侧 是 一 个 小 示 
例 。 要 找 出 s 到 任意 项 点 v 的 路 径 ， 算 法 4.1 实现 的 pathTo() 方法 用 变量 x 遍历 整 棵 树 ， 将 x 设 
为 edgeTo[x] ， 就 像 1.5 节 中 的 union-find 算法 一 样 ， 然 后 在 到 达 s 之 前 ， 将 遇 到 的 所 有 顶点 都 压 
人 栈 中 。 将 这 个 栈 返回 为 一 个 Tterable 对 象 帮助 用 例 遍 历 s 到 v 的 路 径 。 


算法 4.1 使 用 深度 优先 搜索 查找 图 中 的 路 径 


public class DepthFirstPaths 

{ 
private boolean[] marked; // 这 个 顶点 上 调用 过 dfs() 了 吗 ? 
private int[] edgeTo; // 从 起 点 到 一 个 顶点 的 已 知 路 径 上 的 最 后 一 个 顶点 
private final int s; J/ 起 点 


public DepthFirstPaths(Graph G, int s) 
过 





marked = new boolean[G.VO]; 
edgeTo = new int[G.VO]; 


this.s = Si 
dfs(G, s); 

} 

private void dfs(Graph G, int v) edgeTo[] 

OO DD 哆 © 
marked[v] = true; [@) 1|2 凡 
for (int w : G.adj(v)) | 

© 3) @ 3 @ 
if (lmark' 4 
if Clmarked[w]) s|a Oe 
{ XxX 路 径 
edgeTo[w] = Vi 3 5 
dfs(G, w); 2 235 
} 0 o235 


} 


public boolean haspathToCint v) 
{ return marked[v]; } 


pathTo(5) 的 计算 轨迹 


public Iterable<Integer> pathToCint v) 

€ 
if (thaspathTo(v)) return null; 
Stack<Integer> path = new Stack<Integer>(); 
for (int x = v; x != s; x = edgeTo[x]) 

path.push(x); 

path.push(s); 
return path; 

中 

} 


这 段 Graph 的 用 例 使 用 了 深度 优先 搜索 ， 以 找 出 图 中 从 给 定 的 起 点 s 到 它 连通 的 所 有 顶点 的 路 径 。 
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来 自 DepthFirstSearch (4.1.3.2 节 ) 的 代码 均 为 灰色 。 为 了 保存 到 达 每 个 顶点 的 已 知 路 径 ， 这 段 代码 
使 用 了 一 个 以 顶点 编号 为 索引 的 数组 edgeTo[] ，edgeTo[w]=v 表示 v-w 是 第 一 次 访问 w 时 经 过 的 边 。 
3536] edgeTo[] 数组 是 一 棵 用 父 链接 表示 的 以 s 为 根 且 含 有 所 有 与 s 连通 的 顶点 的 树 。 

















4.1.4.2 详细 轨迹 
图 4.1.15 显示 的 是 示例 中 每 个 顶点 被 标记 wher 

后 edgeTo[] 的 内 容 ， 起 点 为 顶点 0。marked[] 中 二 

和 adj[] 的 内 容 与 4.1.3.5 节 中 的 DepthFirst- 

Search 的 轨迹 相同 ， 递 归 调用 和 边 检查 的 详细 

描述 也 完全 一 样 ， 这 里 不 再 熬 述 。 深 度 优先 搜索 

向 edgeTo[] 数组 中 顺序 添加 了 0-2、2-1、2-3、 dfsC2) 




















3-5 和 3-4。 这 些 边 构成 了 一 棵 以 起 点 为 根 结 点 9 js 
的 树 并 提供 了 pathToC) 方法 所 需 的 信息 ， 使 得 
调用 者 可 以 按照 前 文 所 述 的 方法 找到 从 0 到 顶点 
1、2、3、4、5 的 路 径 。 dfsGD) 
DepthFirstPaths 与 DepthFirstSearch i BE 
的 构造 函数 仅 有 几 条 赋值 语句 不 同 ， 因 此 4.132 1 
节 中 的 命题 A 仍 然 适用 。 另 外 ,我 们 还 有 以 下 命题 
dfs(3) 
命题 A( 续 ) 。 使 用 深度 优先 搜索 得 到 从 给 112 
定 起 点 到 任意 标记 顶点 的 路 径 所 需 的 时 间 与 3 
路 径 的 长 度 成 正比 。 
证 明 。 根 据 对 已 经 访问 过 的 顶点 数量 的 归纳 or ol, 
可 得 ，DepthFirstPaths 中 的 edgeTo[] 数 检查 0 z 0 
组 表示 了 一 棵 以 起 点 为 根 结 点 的 树 。path- We 外 ， 
To0 方法 构造 路 径 所 需 的 时 间 和 路 径 的 长 度 
成 正比 。 rat 
537 检查 3 112 
be 
4.1.5 ”广度 优先 搜索 Le 13 
深度 优先 搜索 得 到 的 路 径 不 仅 取决 于 图 的 结 。 ,4 
构 ， 还 取决 于 图 的 表示 和 递归 调用 的 性 质 。 我们 。 “| wx1 
很 自然 地 还 经 常 对 下 面 这 些 问题 感 兴趣 。 和 


单 点 最 短路 径 。 给 定 一 幅 图 和 一 个 起 点 5， 
回答 “从 s 到 给 定 目的 顶点 v 是 否 存 在 一 条 路 径 ? 
如 果 有 ,， 找 出 其 中 最 短 的 那 条 ( 所 含 边 数 最 少 ) 
等 类 似 问题 。 

解决 这 个 问题 的 经 典 方法 叫做 广度 优先 搜索 。 图 41.15 使 用 深度 优先 搜索 的 轨迹 ， 寻 找 所 有 
(BFS)。 它 也 是 许多 图 算法 的 基石 ， 因 此 我 们 会 和 二 和 的] 


wonoN 
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在 本 节 中 详细 学 习 。 深 度 优先 搜索 在 这 个 问题 上 没有 什么 作为 ， 因 为 它 遍 历 SE 
整个 图 的 顺序 和 找 出 最 短路 径 的 目标 没有 任何 关系 。 相 比 之 下 ， 广 度 优先 搜 证 区 
索 正 是 为 了 这 个 目标 才 出 现 的 。 要 找到 从 s 到 v 的 最 短路 径 ， 从 s 开始 ， 在 
所 有 由 一 条 边 就 可 以 到 达 的 顶点 中 寻找 v， 如 果 找 不 到 我 们 就 继续 在 与 s 距 
离 两 条 边 的 所 有 项 点 中 查找 v， 如 此 一 直 进行 。 深 度 优先 搜索 就 好 像 是 一 个 < 
人 在 走 迷宫 ， 广 度 优先 搜索 则 好 像 是 一 组 人 在 一 起 朝 各 个 方向 走 这 座 迷 富 ， BZ 
每 个 人 都 有 自己 的 绳子 。 当 出 现 新 的 丸 路 时 ， 可 以 假设 一 个 探索 者 可 以 分 列 
为 更 多 的 人 来 搜索 它们 ， 当 两 个 探索 者 相册 时， 会 合 二 为 一 并 继续 使 用 先 
到 达 者 的 绳子 ) ， 参 见 图 4.1.16。 > 
在 程序 中 ， 在 搜索 一 幅 图 时 过 到 有 多 条 边 需 要 遍历 的 情况 时 ， 我 们 会 BA 
选择 其 中 一 条 并 将 其 他 通道 留 到 以 后 再 继续 搜索 。 在 深度 优先 搜索 中 ， 我 们 2 
用 了 一 个 可 以 下 压 的 栈 ( 这 是 由 系统 管理 的 ， 以 支持 递归 搜索 方法 ) 。 使 用 
LIFO ( 后进 先 出 ) 的 规则 来 描述 压 栈 和 走 迷宫 时 先 探索 相 邻 的 通道 类 似 。 从 ”图 4116 人 座 优 
有 待 搜索 的 通道 中 选择 最 晚 过 到 过 的 那 条 。 在 广度 优先 搜索 中 ， 我 们 希望 按 宫 搜索 
照 与 起 点 的 距离 的 顺序 来 遍历 所 有 顶点 ， 看 起 来 这 种 顺序 很 容易 实现 使 用 
( FIFO， 先 进 先 出 ) 队列 来 代替 栈 (LIFO， 后 进 先 出 ) 即 可 。 我 们 将 从 有 待 搜索 的 通道 中 选择 最 
早 芝 到 的 那 条 。 
实现 
算法 4.2 实现 了 广度 优先 搜索 算法 。 它 使 用 了 一 个 队列 来 保存 所 有 已 经 被 标记 过 但 其 邻接 表 还 
未 被 检查 过 的 顶点 。 先 将 起 点 加 入 队列 ， 然 后 重复 以 下 步骤 直到 队列 为 空 
口 取 队 列 中 的 下 一 个 项 点 v 并 标记 它 
口 将 与 v 相 邻 的 所 有 未 被 标记 过 的 顶点 加 入 队列 。 5 
算法 42 中 的 bfs () 方法 不 是 递归 的 。 不 像 递归 中 隐 式 使 用 的 栈 ， 它 显 式 地 使 用 了 一 个 队列 。 
和 深度 优先 搜索 一 样 , 它 的 结果 也 是 一 个 数组 edgeTo[] , 也 是 一 棵 用 父 链接 表示 的 根 结 点 为 = 的 树 。 
它 表示 了 s 到 每 个 与 s 连通 的 顶点 的 最 短路 径 。 用 例 也 可 以 使 用 算法 4.1 中 为 深度 优先 搜索 实现 的 
相同 的 pathTo() 方法 得 到 这 些 路 径 。 
图 4.1.17 和 图 4.1.18 显示 了 用 广度 优先 搜索 

















dt 
处 理 样 图 时 ， 算 法 使 用 的 数据 结构 在 每 次 循环 的 。” 人 @ 人 “gn 风 
迭代 开始 时 的 内 容 。 首 先 ， 顶 点 0 被 加 入 队列 ， @ z|。 HO 
然后 循环 开始 搜索 。 OS @ i ob 


口 从 队列 中 删 去 顶点 0 并 将 它 的 相 邻 顶点 2、 
1 和 5 加 入 队列 中 ， 标 记 人 它们 并 分 别 将 它 。 图 17 使 用 广度 优 先 搜 索 寻找 所 有 起 点 为 0 
们 在 edgeTo[] 中 的 值 设 为 0。 

口 从 队列 中 删 去 顶点 2 并 检查 它 的 相 邻 顶点 0 和 1， 发 现 两 者 都 已 经 被 标记 。 将 相 邻 的 顶点 3 
和 4 加 入 队列 ， 标 记 它 们 并 分 别 将 它们 在 edgeTo[] 中 的 值 设 为 2。 

口 从 队列 中 删 去 顶点 1 并 检查 它 的 相 邻 项 点 0 和 2， 发 现 它们 都 已 经 被 标记 了 

口 从 队列 中 删 去 顶点 5 并 检查 它 的 相 邻 顶 点 3 和 0， 发 现 它们 都 已 经 被 标记 了 。 

口 从 队列 中 删 去 顶点 3 并 检查 它 的 相 邻 顶点 5、4 和 2， 发 现 它们 都 已 经 被 标记 了 。 

口 从 队列 中 删 去 顶点 4 并 检查 它 的 相 邻 顶点 3 和 2， 发 现 它们 都 已 经 被 标记 了 。 
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queue marked[] edoeTor] adj[] 
0 ojT 0 oj215 
1 1 102 
2 2 210134 
3 3 31542 
4 4 4|32 
5 5 5130 
2 ojT 0 0 
和 1|T 1lo 102 
5 2|T zlo 20134 
和 3 3 542 
4 4 4132 
5IT 510 5l30 
1 ofr 0 0 
5 1|T 1lo 1l02 
3 2|1T 2|0 2 
4 3 T 3l2 3|542 
4|1T 42 432 
5 T 5lo 5130 
5 oT 0 0 
3 LT 1lo 1 
4 2jT 20 2 
3T 3|2 3|542 
4 T 4 2 432 
5 T 5lo 5 30 
3 01T 0 0 
4 1iT 1lo 1 
zjT 全] 人 “条 
31T 312 3|542 
4|T 4|2 4|32 
5 1T 5lo 5 
4 oT 0 0 
1 T ilo 1 
217 3 1} 
3 3|2 3 
4|T 4|2 432 
SIT 5lo 5 





图 4.1.18 使 用 广度 优先 搜索 的 轨迹 ， 寻 找 所 有 起 点 为 0 的 路 径 ( 另 见 彩 插 ) 


算法 4.2 使 用 广度 优先 搜索 查找 图 中 的 路 径 





public class BreadthFirstPaths 


{ 
private boolean[] marked; // 到 达 该 项 点 的 最 短路 径 已 知 吗 ? 
private int[] edgeTo; // 到 达 该 顶点 的 已 知 路 径 上 的 最 后 一 个 项 点 
private final int s; 1/ 起 点 





public BreadthFirstPaths(Graph G, int s) 


marked = new boolean[G.VO]; 
edgeTo = new int[G.VO]; 
this.s = Si 

bfs(G, s); 
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private void bfs(Graph G, int s) 
{ 
Queue<Integer> queue = new Queue<Integer>(); 
marked[s] = true; // 标记 起 点 
queue.enqueue(s); // 将 它 加 入 队列 
while (!queue.isEmpty()) 
{ 
int v = queue.dequeue(); // 从 队列 中 出 去 下 一 顶点 
for Cint w : G.adjCv) 
if CImarked[w]) // 对 于 每 个 未 被 标记 的 相 邻 顶 点 
edgeTo[w] = v; // 保存 最 短路 径 的 最 后 一 条 边 
marked[w] = true; // 标记 它 ， 因 为 最 短路 径 已 知 
queue.enqueue(w); // 并 将 它 添 加 到 队列 中 





% java BreadthFirstpaths 
} tinyCG.txt 0 
0 to 0: 0 
public boolean haspathToCint v) 0 to 1: 0-1 
{ return marked[v]; } 0 to 2: 0-2 
publie Iterable<ntegers pathToCint vy eR 
// 和 深度 优先 搜索 中 的 实现 相同 【请 见 算法 4.1 ) 0 to 5: 0-5 


} 


这 段 Graph 的 用 例 使 用 了 广度 优先 搜索 ， 以 找 出 图 中 从 构造 函数 得 到 的 起 点 s 到 与 其 他 所 有 项 点 的 
最 短路 径 。bfs() 方法 会 标记 所 有 与 s 连通 的 项 点， 因此 用 例 可 以 调用 hasPathTo() 来 判定 一 个 顶点 与 
s 是 否 连 通 并 使 用 pathTo() 得 到 一 条 从 s 到 v 的 路 径 ， 确 保 没有 其 他 从 s 到 v 的 路 径 所 含 的 边 比 这 条 路 


径 更 少 。 Ed 








对 于 这 个 例子 来 说 ，edgeTo[] 数组 在 第 二 步 之 后 就 已 经 完成 了 。 和 深度 优先 搜索 一 样 ， 一 旦 
所 有 的 项 点 都 已 经 被 标记 ， 余 下 的 计算 工作 就 只 是 在 检查 连接 到 各 个 已 被 标记 的 顶点 的 边 而 已 。 


命题 B。 对 于 从 s 可 达 的 任意 顶点 v， 广 度 优先 搜索 都 能 找到 一 条 从 s 到 v 的 最 短路 径 (没有 
其 他 从 s 到 v 的 路 径 所 含 的 边 比 这 条 路 径 更 少 ) 。 


证 了 明 。 由 归纳 易 得 队列 总 是 包含 零 个 或 多 个 到 起 点 的 距离 为 上 的 顶点 ， 之 后 是 零 个 或 多 个 到 起 
点 的 距离 为 1 的 顶点 ， 其 中 大 为 整数 ， 起 始 值 为 0。 这 意味 着 顶点 是 按照 它们 和 s 的 距离 的 
顺序 加 入 或 者 离开 队列 的 。 从 顶点 v 加 入 队列 到 它 离开 队列 之 前 ,不 可 能 找 出 到 Vv 的 更 短 的 路 径 ， 
而 在 v 离开 队列 之 后 发 现 的 所 有 能 够 到 达 v 的 路 径 都 不 可 能 短 于 v 在 树 中 的 路 径 长 度 。 


命题 B ( 续 ) 。 广 度 优先 搜索 所 需 的 时 间 在 最 坏 情况 下 和 V+E 成 正比 。 


证 明 。 和 命题 A 一 样 ( 请 见 4.13.2 节 ) ,广度 优先 搜索 标记 所 有 与 连通 的 顶点 所 需 的 时 间 也 
与 它们 的 度数 之 和 成 正比 。 如 果 图 是 连通 的 ， 这 个 和 就 是 所 有 顶点 的 度数 之 和 ， 也 就 是 2E。 


注意 ,我 们 也 可 以 用 广度 优先 搜索 来 实现 已 经 用 深度 优先 搜索 实现 的 Search API， 
查 所 有 与 起 点 连通 的 顶点 和 边 的 方法 只 取决 于 查找 的 能 力 。 
我 们 在 本 章 开头 说 过 ,深度 优先 搜索 和 广度 优先 搜索 是 我 们 首先 学 习 的 几 种 通用 的 图 搜索 的 算 





它 检 
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法 之 一 。 在 搜索 中 我 们 都 会 先 将 
起 点 存 人 数据 结构 中 ， 然 后 重复 
以 下 步骤 直到 数据 结构 被 清 : 
口 取 其 中 的 下 一 个 顶点 

记 它 ; 
口 将 v 的 所 有 相 邻 而 又 未 被 
标记 的 顶点 加 入 数据 结构 。 
这 两 个 算法 的 不 同 之 处 仅 在 
于 从 数据 结构 中 获取 下 一 个 顶 
的 规则 ( 对 于 广度 优先 搜索 
是 最 早 加 入 的 顶点 ， 















说 
对 于 深度 
优先 搜索 来 说 是 最 晚 加 入 的 顶 


点 ) 。 这 种 差异 得 到 了 处 理 图 的 
两 种 完全 不 同 的 视角 ， 尽 管 无 论 
使 用 哪 种 规则 ， 所 有 与 起 点 连通 
的 顶点 和 边 都 会 被 检查 到 。 

图 4.1.19 和 图 4.1.20 显 示 
了 深度 优先 搜索 和 广度 优先 搜索 
处 理 样 图 mediumG.txt 的 过 程 ， 
它们 清晰 地 展示 了 两 种 方法 中 搜 
索 路 径 的 不 同 。 深 度 优先 搜索 不 
断 深入 图 中 并 在 栈 中 保存 了 所 有 
分 又 的 机 广度 优先 搜索 则 像 
扇面 一 般 扫描 图 ， 用 一 个 队列 保 
存 访问 过 的 最 前 端的 项 点。 深度 
优先 搜索 探索 一 幅 图 的 方式 是 寻 
找 离 起 点 更 远 的 顶 只 在 碰 到 
死胡同 时 才 访 问 近 处 的 顶 
度 优先 搜索 则 会 首先 覆盖 起 点 附 
近 的 顶点 ， 只 在 临近 的 所 有 顶点 
都 被 访问 了 之 后 才 向 前 进 。 深 度 
优先 搜索 的 路 径 通常 较 长 而 且 曲 
折 ， 广 度 优 先 搜索 的 路 径 则 短 而 
直接 。 根 据 应 用 的 不 同 ， 所 需要 
的 性 质 也 会 有 所 不 同 ( 也许 路 径 
的 性 质 也 会 变 得 无 关 紧要 ) 。 在 
4.4 节 中 ， 我 们 会 学 习 Paths 的 
API 的 其 他 实现 来 寻找 有 特定 属 
性 的 路 径 。 


























图 4.1.19 使 用 深度 优先 搜索 查 
找 路 径 (250 个 顶点 ) 


图 4.1.20 使 用 广度 优先 搜索 查找 
最 短路 径 (250 个 顶点 ) 
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4.1.6 连通 分 量 

深度 优先 搜索 的 下 一 个 直接 应 用 就 是 找 出 一 幅 图 的 所 有 连通 分 量 。 回 忆 1.5 节 中 “与 …… 连 通 ” 
是 一 种 等 价 关 系 ， 它 能 够 将 所 有 顶点 切 分 为 等 价 类 ( 连通 分 量 ) 。 对 于 这 个 常见 的 任务 ， 我 们 定义 
如 下 API ( 请 见 表 4.1.6 ) 。 


表 4.1.6 连通 分 量 的 API 


一 一 - 


public class CC 





CC(Graph G) 预 处 理 构造 函数 
boolean connectedCint v, int w) VV 和 w 连通 吗 
int countO 连通 分 量 数 
int idCint v) Y 所 在 的 连通 分 量 的 标识 符 (0 ~ count()-1) 
CC 和 (0 ~ countO-1) 


用 例 可 以 用 idQ 方法 将 连通 分 量 用 数组 保存 ， 如 框 注 中 的 用 例 所 示 。 它 能 够 从 标准 输入 中 读 
取 一 幅 图 并 打印 其 中 的 连通 分 量 数 ， 其 后 是 每 个 子 图 中 的 所 有 顶点 ,每 行 一 个 子 图 。 为 了 实现 这 些 ， 
它 使 用 了 一 个 Bag 对 象 数组 ， 然 后 用 每 个 顶点 所 在 的 子 图 的 标识 符 作为 数组 的 索引 ， 以 将 所 有 顶点 
加 入 相应 的 Bag 对 象 中 。 当 我 们 希望 独立 处 理 每 个 连通 分 量 时 这 个 用 例 就 是 一 个 模型 。 
4.1.6.1 实现 

CC 的 实现 ( 请 见 算法 43 ) 使 用 了 
marked[] 数组 来 寻找 一 个 顶点 作为 每 个 


连通 分 量 中 深度 优先 搜索 的 起 点 。 递 归 pt eg ge 


public static void main(String[] args) 
{ 





的 深度 优先 搜索 第 一 次 调用 的 参数 是 顶 
CE int M = cc.count/); 
点 0 一 一 它 会 标记 所 有 与 0 连通 的 顶点 。 Stdout.println(M + " components"); 
然后 构造 函数 中 的 for 循环 会 查找 每 个 Bag<Integer>[] components; 
没有 被 标记 的 顶点 并 递归 调用 dfsQ 来 名 Coa new Bag[M]; 
标记 和 它 相 邻 的 所 有 顶点 。 另 外 ， 它 epee pt nth 
还 使 用 了 一 个 以 顶点 作为 索引 的 数组 for (int i 科 
components[cc.idCv)] .add(v); 
id[] ， 将 同一 个 连通 分 量 中 的 顶点 和 连 人 
通 分 量 的 标识 符 关联 起 来 (int 值 ) 。 这 for (Cint v: components[1]) 
个 数组 使 得 connected( 方法 的 实现 变 NA yd 
得 十 分 简单 ， 和 1.5 节 中 的 connectedO) Stdout.println0; 
方法 完全 相同 ( 只 需 检查 标识 符 是 否 相 。 》 
同 ) 。 这 里 ， 标 识 符 0 会 被 赋予 第 一 个 
连通 分 量 中 的 所 有 项 点 ，1 会 被 赋予 第 二 查找 连通 分 量 API 的 测试 用 例 543 














个 连通 分 量 中 的 所 有 顶点 ， 依 此 类 推 。 这 样 所 有 的 标识 符 都 会 如 API 中 指定 的 那样 在 0 到 count (0) -1 
之 间 。 这 个 约定 使 得 以 子 图 作为 索引 的 数组 成 为 可 能 ， 如 右 侧 框 注 用 例 所 示 。 





算法 4.3 “使 用 深度 优先 搜索 找 出 图 中 的 所 有 连通 分 量 


ass CC 








pubiic 

{ 
private boolean{] marked: 
private int[] id; 
private int count; 


350 p> 第 4 章 图 


public CC(Graph G] 















{ % more tinyG.txt 
narked = new [ 13 vertices, 13 edges 
id = new int[G.VO]; 0:6215 
for Cint s = 0; s < GVO; s+t) 1: 0 

if Clmarked[s]) 2: 0 
{ 3:54 
dfs(G, s); 4:563 
count++; 5:340 
6: 04 

3 7: 8 

private void dfs(Graph G, int v) 8: 7 

{ 9: 11 10 12 
marked[v] = true; 10: 9 
id[v] = count 11: 9 12 
for Cint w : G.adj(v)) 12: 19 

if d[w]) 
dfs(C, w) % java CC tinyG.txt 

} 3 components 

public boolean connectedCint v, int w) | 

{ return id[v] == id[w]; } td 


public int idCint v) 
{ return id[v]; } 


public int countO 
{ return count; } 


这 段 Graph 的 用 例 使 得 它 的 用 例 可 以 独立 处 理 一 幅 图 中 的 每 个 连通 分 量 。 来 自 DepthfirstSearch 
(请 见 4.1.3.2 节 ) 的 代码 均 为 灰色 。 这 里 的 实现 是 基于 一 个 由 顶点 索引 的 数组 id[] 。 如 果 v 属于 第 1 个 
连通 分 量 ， 则 id[v] 的 值 为 1。 构 造 函 数 会 找 出 一 个 未 被 标记 的 顶点 并 调用 递归 函数 dfs() 来 标记 并 区 
分 出 所 有 和 它 连通 的 顶点 ， 如 此 重复 直到 所 有 的 顶点 都 被 标记 并 区 分 。connected()、countQO 和 idO) 
方法 的 实现 非常 简单 ( 另 见 图 4.1.21 ) 。 





命题 C。 深 度 优先 搜索 的 预 处 理 使 用 的 时 间 和 空间 与 V+E 成 正比 且 可 以 在 常数 时 间 内 处 理 关于 
图 的 连通 性 查询 。 


证 阴 。 由 代码 可 以 知道 每 个 邻接 表 的 元 素 都 只 会 被 检查 一 次 ， 共 有 2E 个 元 来 (每 条 边 两 个 ) 。 
实例 方法 会 检查 或 者 返回 一 个 或 两 个 变量 。 


4.1.6.2 union-find 算法 

CC 中 基于 深度 优先 搜索 来 解决 图 连通 性 问题 的 方法 与 第 1 章 中 的 union-find 算法 相 比 训 优 熟 
劣 ? 理论 上 ， 深 度 优先 搜索 比 union-find 法 快 ， 因 为 它 能 保证 所 需 的 时 间 是 常数 而 union-find 算法 
不 行 ; 但 在 实际 应 用 中 ， 这 点 差异 微不足道 。union-find 算法 其 实 更 快 ， 因 为 它 不 需要 完整 地 构造 
并 表示 一 幅 图 。 更 重要 的 是 ，union-find 算法 是 一 种 动态 算法 ( 我们 在 任何 时 候 都 能 用 接近 常数 的 
时 间 检查 两 个 顶点 是 否 连 通 ， 甚 至 是 在 添加 一 条 边 的 时 候 ) ， 但 深度 优先 搜索 则 必须 要 对 图 进行 预 
处 理 。 因 此 ， 我 们 在 完成 只 需要 判断 连通 性 或 是 需要 完成 有 大 量 连通 性 查询 和 插入 操作 混合 等 类 似 
的 任务 时 ， 更 倾向 使 用 union-find 算法 ， 而 深度 优先 搜索 则 更 适合 实现 图 的 抽象 数据 类 型 ， 因 为 它 
能 更 有 效 地 利用 已 有 的 数据 结构 。 
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G GD 
count markedD 刘 D 
dfs(5) 0 等 天池 汪 0 000 
检查 5 
检查 4 
3 完成 
检查 4 
检查 0 
5 完成 
4 完成 
6 完成 
dfs(2) 0 1 PTTTT 0 00000 
检查 0 
2 完成 
检查 0 
1 完成 
检查 5 
0 完成 
dfs(8) , TTT 00000001 1 
检查 7 
8 完成 
7 完成 
dfs(9) 了 TT 0000000112 
dfs(11) 2 TTTTTTTTTT 香 0003000112 2 
检查 9 
检查 11 
检查 9 
12 完成 
11 完成 
dfs(10) 2 TTTTTTTTTT TTT 0000000112 22 2 
检查 9 
10 完成 
检查 12 
9 完成 


图 4.1.21 使 用 深度 优先 搜索 的 轨迹 ， 寻 找 所 有 连通 分 量 


我 们 已 经 用 深度 优先 搜索 解决 了 几 个 非常 基础 的 问题 。 这 各 方法 很 简单 ， 递 归 实现 使 我 们 能 够 进行 
复杂 的 运算 并 为 一 些 图 的 处 理 问题 给 出 简洁 的 解决 方法 。 在 表 4.1.7 中 , 我 们 为 下 面 两 个 问题 作出 了 解答 。 
检测 环 。 给 定 的 图 是 无 环 图 吗 ? 
双色 问题 。 能 够 用 两 种 颜色 将 图 的 所 有 顶点 着 色 ， 使 得 任意 一 条 边 的 两 个 端点 的 颜色 都 不 相同 
吗 ? 这 个 问题 也 等 价 于 : 这 是 一 幅 二 分 图 吗 ? 
深度 优先 搜索 和 已 学 习 过 的 其 他 算法 一 样 , 它 简洁 的 代码 下 隐藏 着 复杂 的 计算 .因此 ,研究 这 些 例子 、 40 
在 样 图 中 跟踪 算法 的 轨迹 并 加 以 扩展 、 用 算法 来 解决 环 和 着 色 的 问题 都 是 非常 值得 的 ( 留 作 练 习 ) 。 546, 
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表 4.1.7 使 用 深度 优先 搜索 处 理 图 的 其 他 示例 








任 务 实现 
G 是 无 环 图 吗 ? ( 假设 不 存在 public ciass Cycle 
自 环 或 平行 边 ) { 
rivate ba marked 
private boolean hasCycle; 
public Cycle(Graph G 


marked w bool 





int v, int u) 





else if ( 





v 
1) hasCycle = true; 


public boolean hasCycle() 
{ return hasCycle; } 
} 


G 是 二 分 图 吗 ? (双色 问题 ) public class TwoColor 
* 





private booleant] warked 
private boolean[] color; 

private boolean isTwoColorable = true; 
public TwoColor (Graph 


j =- new boolean[G.V( 


color = new boolean[G.VO]; 





color[w] = !color[v]; 
dfs{G, w) 
else if (color[w] 一 color[v]) isTwoColorable = false; 


public boolean isBipartite() 
{ return isTwoColorable; } 














4.1.7 ”符号 图 

在 典型 应 用 中 , 图 都 是 通过 文件 或 者 网 页 定义 的 , 使 用 的 是 字符 串 而 非 整数 来 表示 和 指 代 项 点 。 
为 了 适应 这 样 的 应 用 ， 我 们 定义 了 拥有 以 下 性 质 的 输入 格式 : 

口 顶点 名 为 字符 串 ; 
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口 用 指定 的 分 隔 符 来 隔 开 顶点 名 ( 允许 顶点 名 
中 含有 空格 ) ; 
口 每 一 行 都 表示 一 组 边 的 集合 ， 每 一 条 边 都 连 
接着 这 一 行 的 第 一 个 名 称 表示 的 顶点 和 其 他 
名 称 所 表示 的 顶点 ; 
口 顶点 总 数 广 和 边 的 总 数 E 都 是 隐 式 定义 的 。 
图 4.1.22 是 一 个 简单 的 示例 。Routes.txt 文件 表 
示 的 是 一 个 小 型 运输 系统 的 模型 ， 其 中 表示 每 个 顶点 
的 是 美国 机 场 的 代码 ， 连 接 它们 的 边 则 表示 顶点 之 间 
的 航线 。 文 件 只 是 一 组 边 的 列表 。 图 4.1.23 所 示 的 是 LAS LAX | 


-个 更 庞大 的 例子 ， 取 自 movies txt， 即 3.5 节 中 介 人 MD。 为 人 了 和 





绍 的 互联 网 电影 数据 库 。 还 记得 吗 ? 这 个 文件 的 每 一 US PR 
行 都 列 出 了 一 个 电影 名 以 及 出 演 该 部 电影 的 一 系列 
演员 。 从 图 的 角度 来 说 ， 我 们 可 以 将 它 看 作 一 幅 图 的 图 4.1.22 符号 图 示例 ( 边 的 列表 ) 


定义 ， 电 影 和 演员 都 是 顶点 ， 而 邻接 表 中 的 每 一 条 边 
都 将 电影 和 它 的 表演 者 联系 起 来 。 注 意 ， 这 是 一 幅 二 分 图 一 一 电影 项 点 之 间或 者 演员 结 点 之 间 都 没有 
边 相连 。 
4.1.7.1 API 
表 4.1.8 中 ，API 定 义 的 Graph 用 例 可 以 直接 使 用 已 有 的 图 算法 来 处 理 这 种 文件 定义 的 图 。 


表 4.1.8 用 符号 作为 项 点 名 的 图 的 API 
一 一 一- 


public class SymbolGraph 








SymbolGraph(String filename, 根据 filename 指定 的 文件 构造 图 ， 使 用 de1im 来 分 
String delim) 隔 顶 点 名 
boolean contains(String key) key 是 一 个 顶点 吗 
int index(String key) Key 的 索引 
String name(int v) 索引 v 的 顶点 名 
Graph GO 隐藏 的 Craph 对 象 548 











这 份 API 定义 了 一 个 构造 函数 来 读 取 并 构造 图 ， 用 name() 方法 和 index() 方法 将 输入 流 中 的 
顶点 名 和 图 算法 使 用 的 顶点 索引 对 应 起 来 。 
4.1.7.2 ”测试 用 例 

下 一 页 框 注 所 示 的 是 符号 图 的 测试 用 例 ， 它 用 第 一 个 命令 行 参数 指定 的 文件 (第 二 个 命令 行 参 
数 指定 了 分 隔 符 ) 来 构造 一 幅 图 并 从 标准 输入 接受 查询 。 用 户 可 以 输入 一 个 顶点 名 并 得 到 该 顶点 的 
相 邻 结 点 的 列表 。 这 个 用 例 提供 的 正好 是 3.5 节 中 研究 过 的 反 向 索引 的 功能 。 以 routes.txt 为 例 ， 你 
可 以 输入 一 个 机 场 的 代码 来 查找 能 从 该 机 场 直 飞 到 达 的 城市 ， 但 这 些 信息 并 不 是 直接 就 能 从 文件 中 
得 到 的 。 对 于 movies.txt， 你 可 以 输入 一 个 演员 的 名 字 来 查看 数据 库 中 他 所 出 演 的 影片 列表 。 输 入 
-部 电影 的 名 字 来 得 到 它 的 演员 列表 ， 这 不 过 是 在 照搬 文件 中 对 应 行 数据 ， 但 输入 演员 的 名 字 来 得 
到 影片 的 列表 则 相当 于 查找 反 向 索引 。 尽 管 数 据 库 的 构造 是 为 了 将 电影 名 连接 到 演员 ， 二 分 图 模型 
同时 也 意味 着 将 演员 连接 到 电影 名 。 二 分 图 的 性 质 自动 完成 了 反 向 索引 。 以 后 我 们 将 会 看 到 ， 这 将 
成 为 处 理 更 复杂 的 和 图 有 关 的 问题 的 基础 。 
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Tin Men (1987)/DeBoy, David/Blumenfeld, Alan/. /Geppi, Cindy/Hershey, Barbara... 
Tirez sur le pianiste (1960)/Heymann, Claude/.../Berger, Nicole (TD 
Titanic (1997)/Mazin, Stan/...DiCaprio, Leonardo/.../Winslet, Kate/. 
Titus (1999)/Weisskopf, Hermann/Rhys, Matthew/.../McEwan, Ceraldine 
To Be or Not to Be (1942)/Verebes, Ern6 (1)/.../Lombard, Carole (1). 
To Be or Not to Be (1983)/ ‘Brooks, Mel (I)/.../Bancroft, Anne/... 
To Catch a Thief (1955)/Paris, Manuel/.../Grant, Cary/.../Kelly, Grace/. 
To Die For (1995)/Smith, Kurtwood/.../Kidman, Nicole/.../ Tucci, Maria... 

















电影 名 演员 


图 4.1.23 符号 图 示例 (邻接 表 ) 


public static void main(String[] args) 
{ 
String filename = args[0]; 
String delim = args[1]; 
SymbolGraph sg = new SymbolGraph(filename, delim); 


Graph G = sg.6O; 


while (StdIn.hasNextLineO) 
多 
String source = StdIn.readLineO; 
for (int w : G.adj(sg.index(source))) 
Stdout.println(” ”+ sg.name(w)); 


符号 图 API 的 测试 用 例 
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% java SymbolGraph movies.txt "/" 
Tin Men (1987) 

DeBoy, David 

Blumenfeld, Alan 


Geppi, Cindy 


% java SymbolGraph routes.txt " " Hershey, Barbara 
JFK 时 芝 
ORD Bacon, Kevin 
ATL Mystic River (2003) 
MCO Friday the 13th (1980) 
LAX Flatliners (1990) 
LAS Few Good Men, A (1992) 549| 
PHX 人 1 
550| 





很 显然 ， 这 种 方法 适用 于 我 们 遇 到 过 的 所 有 图 算法 : 用例 可 以 用 index() 将 顶点 名 转化 为 索引 
并 在 图 的 处 理 算法 中 使 用 ， 然 后 将 处 理 结果 用 name() 转化 为 顶点 名 以 方便 在 实际 应 用 中 使 用 。 
4.1.7.3 实现 

Symbo1Graph 的 完整 实现 请 见 下 面 的 框 注 “ 符 号 图 的 数据 类 型 ”。 它 用 到 了 以 下 3 种 数据 结构 ， 
参见 图 4.1.24。 

口 一 个 符号 表 st， 键 的 类 型 为 String ( 顶点 名 ) ， 值 的 类 型 为 int (索引 ) ; 

口 一 个 数组 keys[] ， 用 作 反 向 索引 ， 保 存 每 个 顶点 索引 所 对 应 的 顶点 名 ; 

口 一 个 Graph 对 象 6， 它 使 用 索引 来 引用 图 中 顶点 。 

Symbo1Graph 会 遍历 两 遍 数 据 来 构造 以 上 数据 结构 ， 这 主要 是 因为 构造 Graph 对 象 需要 顶点 
总 数 V。 在 典型 的 实际 应 用 中 ， 在 定义 图 的 文件 中 指明 上 和 巨 ( 见 本 节 开 头 Graph 的 构造 函数 ) 可 
能 会 有 些 不 便 ， 而 有 了 Symbo1Graph， 我 们 就 可 以 方便 地 在 routes.txt 或 者 movies.txt 中 添加 或 者 删 
除 条 目 而 不 用 担心 需要 维护 边 或 顶点 的 总 数 。 











































































































符号 表 反 向 索引 无 向 图 
ST<String, Integer> st String[] keys Graph G 
TG i int V 10 
MCO 1 1 |mco 
2 |orp 
ORD 2 3 |DEN Bag[] ad; 
DEN 3 4 |Hou 0 
5 |pFw 3 
HOU 4 i 1 
DFW 5 7 |ATL 及 
PHX 6 8 | LAx 3 |- 一 一 
9 1us | 
ATL 7 
二 > 
6 
LAs 9 村 本 
A 
键 8 4|-[0 
9 
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图 4.1.24 符号 图 中 用 到 的 数据 结构 SL 
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符号 图 的 数据 类 型 
public class SymbolGraph 
{ 
private ST<String, Integer> st; // 符号 名 一 索引 
private String[] keys; // 索引 一 符号 名 
private Graph G; // 图 
public SymbolGraph(String stream，String sp) 
{ 
St = new ST<String, Integer>O); 
In in = new In(stream); // 第 一 这 
while (in.hasNextLine()) // 构造 索引 
{ 
String[] a = in.readLine() .split(sp); // 读 取 字符 事 
for (int i = 0; i < a.length; i++) // 为 每 个 不 同 的 字符 事 关 联 一 个 索引 
if (!st.contains(a[i])) 
st.put(a[i], st.sizeO); 
} 
keys = new String[st.size()]; // 用 来 获得 顶点 名 的 反 向 索引 是 一 个 数组 


for (String name : st.keysO) 
keys[st.get(name)] = name; 


G = new Graph(st.size()); 
in = new In(stream); /1/ 第 二 记 
while (in.hasNextLine()) // 构造 图 


String[] a = in.readLine().split(sp); // 将 每 一 行 的 顶点 和 该 行 的 其 他 项 点 相连 


int v = st.get(a[0]); 
for (int 1 = 1; i < a.length; i++) 
G.addEdge(v, st.get(a[i])); 


} 
} 
public boolean contains(String s) { return st.contains(s); 
public int index(String s) { return st.get(s); } 
public String nameCint v) { return keys[v]; } 
public Graph GO { return G; } 


未 


这 个 Graph 实现 允许 用 例 用 字符 串 代替 数字 索引 来 表示 图 中 的 顶点 。 它 维护 了 实例 变量 st ( 符号 
表 用 来 映射 项 点 名 和 索引 ) 、keys ( 数组 用 来 映射 索引 和 顶点 名 ) 和 G ( 使 用 索引 表示 顶点 的 图 ) 。 为 
了 构造 这 些 数据 结构 , 代码 会 将 图 的 定义 处 理 两 遍 ( 定义 的 每 一 行 都 包含 一 个 顶点 及 它 的 相 邻 项 点 列表 ， 








6552] 用 分 隔 符 sp 隔 开 ) 。 











4.1.7.4 间隔 的 度数 


图 处 理 的 一 个 经 典 问题 就 是 ， 找 到 一 个 社交 网 络 之 中 两 个 人 间隔 的 度数 。 为 了 弄 清楚 概念 ， 

们 用 一 个 最 近 很 流行 的 名 为 Kevin Bacon 的 游戏 来 说 明 这 个 问题 。 这 个 游戏 用 到 了 刚才 讨论 的 “ 电 

影 -演员 ”图 。Kevin Bacon 是 一 个 活跃 的 演员 ， 曾 出 演 过 许多 电影 。 我 们 为 图 中 的 每 个 演员 赋 一 

个 Kevin Bacon 数 : Bacon 本 人 为 0， 所 有 和 Kevin Bacon 出 演 过 同一 部 电影 的 人 的 值 为 1， 所 有 

(除了 Kevin Bacon ) 和 Kevin Bacon 数 为 1 的 演员 出 演 过 同一 部 电影 的 其 他 演员 的 值 为 2， 依 次 类 
推 。 例 如 ，Meryl Streep 的 Kevin Bacon 数 为 1， 因 为 她 和 Kevin Bacon 一 同 出 演 过 The River Wild。 
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Nicole Kidman 的 值 为 2， 因为 她 虽然 没有 和 Kevin Bacon 同 台 演出 过 任何 电影 ， 但 她 和 Tom Cruise 
一 起 演 过 Days of Thunder， 而 Tom Cruise 和 Kevin Bacon 一 起 演 过 4 Few Good Men。 给 定 一 个 演员 
的 名 字 ， 游 戏 最 简单 的 玩法 就 是 找 出 一 系列 的 电影 和 演员 来 回溯 到 Kevin Bacon。 例 如 ， 有 些 影迷 
可 能 知道 Tom Hanks 和 Lloyd Bridges 一 起 演 过 .Joe Versus the Volcano， 而 Bridges 和 Grace Kelly 一 
起 演 过 High Noon，Kelly 又 和 Patrick Allen 一 起 演 过 Dial M for Murder，Allen 和 Donald Sutherland 
一 起 演 过 The Eagle has Landed，Sutherland 和 Kevin Bacon 一 起 出 演 了 Animal House。 但 知道 这 些 
也 并 不 足以 确定 Tom Hanks 的 Kevin Bacon 数 。 ( 他 的 值 实际 上 应 该 是 1， 因 为 他 和 Kevin Bacon 
在 4polo 13 中 合作 过 ) 。 你 可 以 看 到 Kevin Bacon 数 必须 定义 为 最 短 电影 链 的 长 度 ， 因 此 如 果 不 用 
计算 机 ， 人 们 很 难 知道 游戏 中 到 底 谁 赢 了 。 当 然 ， 如 后 面 框 注 “ 间 隔 的 度数 ”中 Symbol1Graph 的 
用 例 DegreesOfSseparation 所 示 ，BreadthFirstPaths 才 是 我 们 所 要 的 程序 ， 它 通过 最 短路 径 来 
找 出 movies.txt 中 任意 演员 的 Kevin Bacon 数 。 这 个 程序 从 命令 行 得 到 一 个 起 点 ， 从 标准 输入 中 接 
受 查 询 并 打印 出 一 条 从 起 点 到 被 查询 顶点 的 最 短路 径 。 因 为 movies.txt 所 构造 的 是 一 幅 二 分 图 ， 每 
条 路 径 上 都 会 交替 出 现 电 影 和 演员 的 打出 的 结果 可 以 证 明 这 样 的 路 径 是 存在 的 〈 但 并 不 能 证 
明 它 是 最 短 的 一 一 你 需要 向 你 的 朋友 证 明 命题 B 才 行 ) 。Degrees0fSeparation 也 能 够 在 非 二 分 
图 中 找到 最 短路 径 。 例 如 ， 在 routes.txt 中 ， 它 能 够 用 最 少 的 边 找到 一 种 从 一 个 机 场 到 达 另 一 个 机 场 
的 方法 。 






% java DegreesOfSeparation movies.txt "/" "Bacon, Kevin” 
Kidman, Nicole 
Bacon, Kevin 
Few Good Men, A (1992) 
Cruise, Tom 
Days of Thunder (1990) 
Kidman, Nicole 
Grant, Cary 
Bacon, Kevin 
Mystic River (2003) 
Willis, Susan 
Majestic, The (2001) 
Landau, Martin 
North by Northwest (1959) 
Grant, Cary 








553 








你 可 能 会 发 现 用 Degrees0fSeparation 来 回答 一 些 关 于 电影 行业 的 问题 很 有 趣 。 例 如 ， 你 不 
但 可 以 找到 演员 和 演员 之 间 的 间隔 ， 还 可 以 找到 电影 和 电影 之 间 的 间隔 5 更 重要 的 是 ， 间 隔 的 概 
念 在 其 他 许多 领域 也 被 广泛 研究 。 例 如 ， 数 学 家 也 会 玩 这 个 游戏 ， 但 他 们 的 图 是 用 一 些 论文 的 作 
者 到 PErd5s ( 20 世纪 的 一 位 多 产 的 数学 家 ) 的 距离 来 定义 的 。 类 似 地 ， 似 乎 新 泽 西 州 的 每 个 人 的 
Bruce Springsteen 数 都 为 2， 因 为 每 个 人 都 声称 自己 认识 某 个 认识 Bruce 的 人 。 要 玩 Erdss 的 游戏 ， 
你 需要 一 个 包含 所 有 数学 论文 的 数据 库 ; 要 玩 Sprintsteen 的 游戏 还 要 困难 一 些 。 从 更 严肃 的 角度 来 
说 ， 间 隔 度 数 的 理论 在 计算 机 网 络 的 设计 以 及 理解 各 个 科学 领域 中 的 自然 网 络 中 都 能 起 到 重要 的 
作用 。 554 
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% java DegreesOfSeparation movies.txt "/" "Animal House (1978)" 
Titanic (1997) 
Animal House (1978) 
Allen, Karen (1) 
Raiders of the Lost Ark (1981) 
Taylor, Rocky (I) 
Titanic (1997) 
To Catch a Thief (1955) 
Animal House (1978) 
Vernon, John (TD 
Topaz (1969) 
Hitchcock, Alfred (I) 
To Catch a Thief (1955) 


间隔 的 度数 


public class DegreesOfSeparation 





public static void main(String[] args) 


SymbolGraph sg = new SymbolGraph(args[0], args[1]); 
Graph G = sg.6O; 


String source = args[2]; 
if (1sg.contains(source)) 
{ StdOut.println(source + "not in database 





return; } 


int s = sg.index(source); 
BreadthFirstPaths bfs = new BreadthFirstpaths(G, s); 














tls (1StdIn.isEmptyO) a 
String sink = StdIn.readLine(); 人 
if (sg.contains(sink)) routest txt IFK 
Las 
int t = sg,index(sink); JFK 
if (bfs.haspathTo(t)) ORD 
for (int v : bfs.pathTo(t)) PHX 
StdOut.println(” "+ sg.name(v)); LAS 
else StdOut.println("Not connected" DFW 
1 JFK 
else StdOut.println("Not in database. ORD 
} DFW 


} 
} 


这 段 代码 使 用 了 Symbo1Graph 和 BreadthFirstPath 来 查找 图 中 的 最 短路 径 。 对 于 movies.txt， 可 











555| 以 用 它 来 玩 Kevin Bacon 游戏 。 








4.1.8 总 结 
在 本 节 中 ,我 们 介绍 了 几 个 基本 的 概念 ， 本 章 的 其 余部 分 会 继续 扩展 并 研究 : 
口 图 的 术语 ; 
口 一 种 图 的 表示 方法 ， 能 够 处 理 大 型 而 稀疏 的 图 ; 


口 和 图 处 理 相关 的 类 的 设计 模式 ， 其 实现 算法 通过 在 相关 的 类 的 构造 函数 中 对 图 进行 预 处 理 、 
构造 所 需 的 数据 结构 来 高 效 支持 用 例 对 图 的 查询 ; 
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口 深度 优先 搜索 和 广度 优先 搜索 ; 

口 支持 使 用 符号 作为 图 的 顶点 名 的 类 。 

表 4.1.9 总 结 了 我 们 已 经 学 习 过 的 所 有 图 算法 的 实现 。 这 些 算法 非常 适合 作为 图 处 理 的 入门 学 
习 。 随 后 学 习 更 加 复杂 类 型 的 图 以 及 处 理 更 加 困难 的 问题 时 ， 我 们 还 会 用 到 这 些 代码 的 变种 。 在 考 
虚 了 边 的 方向 以 及 权重 之 后 ， 同 样 的 问题 会 变 得 困难 得 多 ， 但 同样 的 算法 仍然 奏效 并 将 成 为 解决 更 
加 复杂 问题 的 起 点 。 


表 4.1.9 本 节 中 得 到 解决 的 无 向 图 处 理 问题 








题 解决 方法 参 阅 
单 点 六 E DepthFirstSearch 4.1.3.2 节 
单 点 路 径 DepthFirstPaths 算法 4.1 
单 点 最 短路 径 BreadthFirstPaths 算法 42 
连通 性 CC 算法 43 
检测 环 Cycle 表 4.1.7 
双色 问题 ( 图 的 二 分 性 ) TwoColor 表 4.1.7 


围 答 缀 

问 为 什么 不 把 所 有 的 算法 都 实现 在 Graphjava 中 ? 

答 ”可 以 这 么 做 ， 可 以 向 基本 的 Graph 抽象 数据 类 型 的 定义 中 添加 查询 方法 ( 以 及 它们 需要 的 私有 变量 和 
方法 等 ) 。 尽 管 这 种 方式 可 以 用 到 一 些 我 们 所 使 用 的 数据 结构 的 优点 ， 它 还 是 有 一 些 严重 的 缺陷 ， 因 
为 图 处 理 的 成 本 比 1.3 节 中 巡 到 那些 基本 数据 结构 要 高 得 多 。 这 些 缺 点 主要 有 :; 
口 在 图 处 理 中 ,需要 实现 的 操作 还 有 很 多 ， 我 们 无 法 在 一 份 API 中 全 部 精确 地 定义 它们 ; 
口 简单 任务 的 API 和 复杂 任务 所 使 用 的 API 是 相同 的 ; 
口 一 个 方法 将 可 以 访问 另外 一 个 方法 专用 的 变量 ， 这 有 悖 我 们 需要 遵守 的 封装 原则 。 
这 种 情况 并 不 罕见 :这 种 API 被 称 为 宽 接 口 (请 见 1.2.5.2 节 ) 。 本 章 包含 如 此 众多 的 图 算法 ， 
将 导致 这 种 API 变 得 非常 宽 。 

问 Symbo1Graph 真 需要 将 图 的 定义 遍历 两 遍 吗 ? 

答 不 ， 你 也 可 以 将 用 时 增加 lgN 并 直接 用 ST 而 非 Bag 来 实现 adjO。 我 们 的 另 一 本 书 jn Jniroduction to 
Programming in Java: An Interdisciplinary Approach 中 含有 使 用 这 种 方法 的 一 个 实现 。 


围 练 

4.1.1 一 幅 含 有 丰 个 项 点 且 不 含有 平行 边 的 图 中 至 多 含有 多 少 条 边 ? 一 幅 含 有 严 个 顶点 的 连通 图 中 至 少 
含有 多 少 条 边 ? 

4.1.2 按照 正文 中 示意 图 的 样式 ( 请 见 图 4.1.9 ) 画 出 Graph 的 构造 函数 在 处 理 图 4.1.25 的 tinyGex2.txt 


时 构造 的 邻接 表 。 

4.1.3 为 Graph 添加 一 个 复制 构造 丽 数 ， 它 接受 一 幅 图 6 然后 创建 并 初始 化 这 幅 图 的 一 个 副本 。G 的 用 
例 对 它 作出 的 任何 改动 都 不 应 该 影响 到 它 的 副本 。 

4.14 为 Graph 添加 一 个 方法 hasEdge() ， 它 接受 两 个 整 型 参数 v 和 w。 如 果 图 含有 边 v-w， 方 法 返回 
true， 否 则 返回 false。 
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4.1.5 修改 Graph， 不 允许 存在 平行 边 和 自 环 。 
4.1.6 有 一 张 含 有 四 个 顶点 的 图 ， 其 中 的 边 为 0-1、1-2、2-3 和 3-0。 给 出 一 种 邻接 表 数组 ， 无 论 以 任 
何 顺序 调用 addEdge() 来 添加 这 些 边 都 无 法 创建 它 。 

4.1.7 为 Graph 编写 一 个 测试 用 例 ， 用 命令 行 参 数 命名 并 从 输入 流 中 接受 一 幅 图 ， 然 后 用 toString() 

方法 将 其 打印 出 来 。 

4.1.8 按照 正文 中 的 要 求 ， 用 union-find 算法 实现 4.1.2.3 中 搜索 的 API。 

4.1.9 使 用 dfs(0) 处 理由 Graph 的 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 并 按照 4.1.3.5 

节 的 图 4.1.14 的 样式 给 出 详细 的 轨迹 。 同 时 ， 画 出 edgeTo[] 所 表示 的 树 。 

4.1.10 证明 在 任意 一 幅 连 通 图 中 都 存在 一 个 顶点 ， 删 去 它 ( 以 及 和 它 相 连 的 所 有 边 ) 不 会 影响 到 图 的 
连通 性 ， 编 写 一 个 深度 优先 搜索 的 方法 找 出 这 样 一 个 顶点 。 提 示 : 留心 那些 相 邻 顶点 全 部 都 被 
标记 过 的 顶点 。 

4.1.11 使 用 算法 4.2 中 的 bfs(G,0) 处 理由 Graph 的 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 
图 并 画 出 edgeTo[] 所 表示 的 树 。 

4.1.12 如 果 v 和 w 都 不 是 根 结 点 ， 能 够 由 广度 优先 搜索 得 到 的 树 中 计算 它们 之 间 的 距离 吗 ? 

4.1.13 为 BreadthFirstPaths 的 API 添加 并 实现 一 个 方法 distToO ， 返 回 从 起 点 到 给 定 的 顶点 的 最 短 
路 径 的 长 度 ， 它 所 需 的 时 间 应 该 为 常数 。 

4.1.14 “如果 用 栈 代替 队列 来 实现 广度 优先 搜索 ,我们 还 能 得 到 最 短路 径 吗 ? 

4.1.15 修改 Graph 的 输入 流 构造 郴 数 ， 允 许 从 标准 输入 读 人 图 的 邻接 表 ( 方法 类 似 于 Symbo- 








1Graph ) ， 如 图 4.1.26 的 tinyGadj.txt 所 示 。 在 顶点 和 边 的 总 数 之 后 ， 每 一 行 由 一 个 顶点 和 它 的 
所 有 相 邻 顶点 组 成 。 
OO 
(9 
(2) 
A 相 
tinyGex2. txt 同 ， 只 是 顺序 不 同 
Vz 上 6 B 
1 @ 9) tinyGadj txt 
人 % Graph tinyGadj. 
23 Ne Vy E ee 4 edges yy 
111 四 | 13< 2 
06 01256 列表 顺序 
5 / 四 345 和 输入 相反 
4 
11 © 173° 
78 9 10 11 12 
118 C) 一 fs) 11 12 
: Ys 
62 
52 (WV 
5 10 每 条 边 在 第 二 
5 0 © 次 出 现 的 时 候 
81 会 显示 为 红色 
41 
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4.1.16 项 点 v 的 离心 率 是 它 和 离 它 最 远 的 顶点 的 最 短 距离 。 图 的 直径 即 所 有 顶点 的 最 大 离心 率 ， 半 径 
为 所 有 顶点 的 最 小 离心 率 ， 中 点 为 离心 率 和 半径 相等 的 顶点 。 实 现 以 下 API， 如 表 4.1.10 所 示 。 


4.1.17 


4.1.18 


4.1.19 


4.1.20 


4.1.21 


4.1.22 


4.1.23 


4.1.24 


4.1.25 


4.1.26 


4.1.27 


4.1.28 


4.1 


表 4.1.10 


GraphPproperties 
GraphProperties (Graph G) 





public class 





构造 函数 ( 如 果 6 不 是 连通 的 ， 抛 出 异常 ) 


int eccentricityCint v) Vv 的 离心 率 
int diameter() 6 的 直径 
int radius() 6 的 半径 
int center() G 的 某 个 中 点 


图 的 周 长 为 图 中 最 短 环 的 长 度 。 如 果 是 无 环 图 ， 则 它 的 周 长 为 无 穷 大 。 为 GraphProper-ties 
添加 一 个 方法 girth() ， 返 回 图 的 周 长 。 提 示 : 在 每 个 顶点 都 进行 广度 优先 搜索 。 含 有 s 的 最 
小 环 为 s 到 某 个 顶点 v 的 最 短 距离 加 上 v 到 s 的 最 短 距离 。 

使 用 CC 找 出 由 Graph 的 输入 流 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 中 的 所 有 连 
通 分 量 并 按照 图 4.1.21 的 样式 给 出 详细 的 轨迹 。 

使 用 Cycle 在 由 Graph 的 输入 流 构 造 函 数 从 tinyGex2.bxt ( 请 见 练习 4.1.2 ) 得 到 的 图 中 找到 的 一 
个 环 并 按照 本 节 示 意图 的 样式 给 出 详细 的 轨迹 。 在 最 坏 情况 下 ，Cyc1e 构造 函数 的 运行 时 间 的 增 
长 数量 级 是 多 少 ? 

使 用 TwoColor 给 出 由 Graph 的 构造 函数 从 tinyGex2.txt ( 请 见 练习 4.1.2 ) 得 到 的 图 的 一 个 着 色 
方案 并 按照 本 节 示 意图 的 样式 给 出 详细 的 轨迹 。 在 最 坏 情 况 下 ，TwoColor 构造 函数 的 运行 时 间 
的 增长 数量 级 是 多 少 ? 

用 Symbolcraph 和 movie.txt 找到 今年 获得 奥斯卡 奖 提名 的 演员 的 Kevin Bacon 数 。 

编写 一 段 程序 BaconHistogram， 打 印 一 幅 Kevin Bacon 数 的 柱状 图 ， 显 示 movies.txt 中 Kevin 
Bacon 数 为 0.1.2.3…… 的 演员 分 别 有 多 少 。 将 值 为 无 穷 大 的 人 归 为 一 类 ( 不 与 Kevin Bacon 连通 )。 
计算 由 movies.txt 得 到 的 图 的 连通 分 量 的 数量 和 包含 的 顶点 数 小 于 10 的 连通 分 量 的 数量 。 计 算 
最 大 的 连通 分 量 的 离心 率 、 直 径 、 半 径 和 中 点 。Kevin Bacon 在 最 大 的 连通 分 量 之 中 吗 ? 

修改 DegreesOfSeparation， 从 命 
令 行 接受 一 个 整 型 参数 y， 忽 略 上 映 
年 数 超过 y 的 电影 。 


% java DegreesOfSeparationDFS movies.txt 
Source: Bacon, Kevin 
Query: Kidman, Nicole 

Bacon, Kevin 
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编写 一 个 类 似 于 DegreesOfSse- 
paration 的 SymbolGraph 用 例 , 使 
用 深度 优先 搜索 代替 广度 优先 搜索 
来 查找 两 个 演员 之 间 的 路 径 ， 输 出 
类 似 如 右 侧 框 注 所 示 的 数据 格式 。 
使 用 1.4 节 中 的 内 存 使 用 模型 评估 用 
Graph 表示 一 幅 含 有 VV 个 顶点 和 EE 
条 边 的 图 所 需 的 内 存 。 

如 果 重 命名 一 幅 图 中 的 顶点 就 能 够 
使 之 变 得 和 另 一 幅 图 完全 相同 ， 这 
两 幅 图 就 是 同 构 的 。 画 出 含有 2 、3、 
4、5 个 顶点 的 所 有 非 同 构 的 图 。 
修改 Cycle, 允许 图 含有 自 环 和 平行 边 。 


Mystic River (2003) 
0' Hara, Jenny 
Matchstick Men (2003) 
Grant, Beth 


Sky Captain... (2004) 
Jolie, Angelina 

Playing by Heart (1998) 
Anderson, Gillian (I) 

Cock and Bu11 Story, A (2005) 
Henderson, Shirley (IT 

24 Hour Party People (2002) 
Eccleston, Christopher 

Cone in Sixty Seconds (2000) 
Balahoutis, Alexandra 

Days of Thunder (1990) 
Kidman, Nicole 
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图 提高 是 


4.1.29 


4.1.35 


4.1.36 





4.1.37 











欧 拉 环 和 汉密尔顿 环 。 考 虑 以 下 4 组 边 定义 的 图 : 
-3 1- 3 

-3 1- 
-3 0- 
-2 7- 


3 
3 
3 
3 


顿 环 (恰好 包含 a ? 

图 的 枚 举 。 含 有 VV 个 顶点 和 EE 条 边 ( 不 含 平行 边 ) 的 不 同 的 无 向 图 共有 多 少 种 ? 

检测 平行 边 。 设 计 一 个 线性 时 间 的 算法 来 统计 图 中 的 平行 边 的 总 数 。 

奇 环 。 证 明 一 幅 图 能 够 用 两 种 颜色 着 色 ( 二 分 图 ) 当 且 仅 当 它 不 含有 长 度 为 奇数 的 环 。 

符号 图 。 实 现 一 个 Symbo1Graph ( 不 一 定 必须 使 用 Graph ) ， 只 需要 遍历 一 遍 图 的 定义 数据 。 

由 于 需要 查找 符号 表 ， 实 现 中 图 的 各 种 操作 时 耗 可 能 会 变 为 原来 的 logF 售 。 

双向 连通 性 。 如 果 任意 一 对 顶点 都 能 由 两 条 不 同 ( 没有 重大 的 边 或 顶点 ) 的 路 径 连通 则 图 就 是 
双向 连通 的 。 在 一 幅 连通 图 中 ， 如 果 一 个 项 点 被 删 掉 后 图 不 再 连通 ， 该 顶点 就 被 称 为 关节 点 。 

证 明 没有 关节 点 的 图 是 双向 连通 的 。 提 示 : 给 定 任意 一 对 顶点 s 和 t+ 和 一 条 连接 两 点 的 路 径 ， 

由 于 路 径 上 没有 任何 顶点 为 关节 点 ， 构 造 另 一 条 不 同 的 路 径 连 接 s 和 t。 

边 的 连通 性 。 在 一 幅 连 通 图 中 ， 如 果 一 条 边 被 删除 后 图 会 被 分 为 两 个 独立 的 连通 分 量 ， 这 条 边 
就 被 称 为 桥 。 没 有 桥 的 图 称 为 边 连通 图 。 开 发 一 种 基于 深度 优先 搜索 算法 的 数据 类 型 ， 判 断 一 
个 图 是 否 是 边 连通 图 。 

欧 拉 图 。 为 平面 上 的 图 设计 并 实现 一 份 叫 做 EulideanGraph 的 AP1, 其 中 图 所 有 顶点 均 有 坐标 。 

实现 一 个 show0 方法 ， 用 StdDraw 将 图 
图 像 处 理 。 在 一 幅 图 像 中 将 所 有 相 邻 的 、 
义 的 图 实现 填充 ( flood fill ) 操作 。 











绘 出 。 


颜色 相同 的 点 相连 就 可 以 得 到 一 幅 图 ， 为 这 种 隐 式 定 


图 实验 是 


4.1.38 


4.1.39 


4.1.40 


4.1.41 


4.1.42 


随机 图 。 编 写 一 个 程序 ErdosRenyiGraph， 从 命令 行 接受 整数 V 和 E， 随 机 生成 E 对 0 到 -1 
之 间 的 整数 来 构造 一 幅 图 。 注 意 : 生成 器 可 能 会 产生 自 环 和 平行 边 。 

随机 简单 图 。 编 写 一 个 程序 RandomsimpleGraph， 从 命令 行 接受 整数 上 筷 ， 用 均等 的 几率 生 
成 含有 7 个 顶点 和 无 条 边 的 所 有 可 能 的 简单 图 。 

随机 稀疏 图 。 编 写 一 个 程序 RandomsparseGraph， 根 据 精 心 选 择 的 一 组 了 上 和 巨 的 值 生成 随机 的 
稀 朴 图 ， 以 便 用 它 对 由 Erd5s-Renyi 模型 得 到 的 图 进行 有 意义 的 经 验 性 测试 。 

随机 欧 拉 图 。 编 写 一 个 EulideanGraph 的 用 例 ( 请 见 练习 4.1.36 ) RandomEulideanGraph， 用 
随机 在 平面 上 生成 Y 个 点 的 方式 生成 随机 图 ， 然 后 将 每 个 点 和 在 以 该 点 为 中 心 半径 为 d 的 圆 内 
的 其 他 点 相连 。 注 意 : 如 果 d 大 于 阔 值 VigF/zF ， 那 么 得 到 的 图 几乎 必然 是 连通 的 ， 和 否则 得 到 
的 图 几乎 必然 是 不 连通 的 。 

随机 网 格 图 。 编 写 一 个 EulideanGraph 的 用 例 RandomGridGraph， 将 VF 乘 JF 的 网 格 中 的 所 
有 项 点 和 它们 的 相 邻 顶点 相连 ( 参考 练习 1.5.18 ) 。 修 改 代码 为 图 额外 添加 R 条 随机 的 边 。 对 于 
较 大 的 R， 缩 小 网 格 使 得 总 边 数 保持 在 了 个 左右 。 添 加 一 个 选项 ， 使 得 出 现 一 条 从 项 点 s 到 顶 


4.1.43 


4.1.44 


4.1.45 


4.1.46 


4.1.47 


4.1.48 


4.1.49 
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点 v 的 边 的 概率 与 s 到 t 的 欧 拉 距 离 成 反比 。 

真实 世界 中 的 图 。 从 网 上 找 出 一 幅 巨 型 加 权 图 一 一 可 以 是 一 张 标记 了 距离 的 地 图 ， 或 者 是 标明 
了 费用 的 电话 连接 ， 或 是 航班 价目 表 。 编 写 一 段 程序 RandomRea1Graph， 从 这 些 顶点 构成 的 子 
图 中 随机 选取 个 顶点 ， 然 后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 五 条 边 来 构造 一 幅 图 。 
随机 区 间 图 。 考 虑 数 轴 上 的 二 个 区 间 的 集合 。 这 样 的 一 个 集合 定义 了 一 幅 区 间 图 ， 图 中 的 每 个 
顶点 都 对 应 一 个 区 间 ， 而 边 则 对 应 两 个 区 间 的 交集 ( 大 小 不 限 ) 。 编 写 一 段 程序 ， 随 机 生成 大 
小 均 为 4 的 下 个 区 间 ， 然 后 构造 相应 的 区 间 图 。 提 示 : 使 用 二 分 查找 树 。 

随机 运输 图 。 定 义 运输 系统 的 一 种 方法 是 定义 一 个 顶点 链 的 集合 ， 每 条 顶点 链 都 表示 一 条 连接 
了 多 个 顶点 的 路 径 。 例 如 ， 链 0-9-3-2 定义 了 边 0-9、9-3 和 3-2。 编 写 一 个 EulideanGraph 
的 用 例 RandomTransportation， 从 一 个 输入 文件 中 构造 一 幅 图 ， 文 件 的 每 行 均 为 一 条 链 ， 使 
用 符号 名 。 编 辑 一 份 合适 的 输入 使 得 程序 能 够 从 中 构造 一 幅 和 巴黎 地 铁 系统 相对 应 的 图 。 

测试 所 有 的 算法 并 研究 所 有 图 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 程 
序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 实 
验 。 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结果 以 及 由 此 得 出 的 任何 结论 。 
深度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 判断 DepthFirstPaths 
在 两 个 随机 选 定 的 顶点 之 间 找到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 长 度 。 

广度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 判断 Breadth- 
Firstpaths 在 两 个 随机 选 定 的 项 点 之 间 找到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 长 度 。 
连通 分 量 。 运 行 实验 随机 生成 大 量 的 图 并 夯 出 柱状 图 ， 根 据 经 验 判断 各 种 类 型 的 随机 图 中 连通 
分 量 的 数量 的 分 布 情况 。 

双色 问题 。 大 多 数 的 图 都 无 法 用 两 种 颜色 着 色 ， 深 度 优先 搜索 能 够 很 快 发 现 这 一 点 。 对 于 各 种 
图 模型 ， 使 用 经 验 性 的 测试 来 研究 TwoColor 检查 的 边 的 数量 。 
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4.2 ”有 向 图 


在 有 向 图 中 ， 边 是 单 向 的 : 每 条 边 所 连接 的 两 个 顶点 都 是 一 个 有 序 对 ， 它 们 的 邻接 性 是 单 向 的 
( 表 4.2.1) 。 许 多 应 用 ( 比如 表示 网 络 、 任 务 调度 条 件 或 是 电话 的 图 ) 都 是 天 然 的 有 向 图 。 为 实现 
添加 这 种 单 向 性 的 限制 很 容易 也 很 自然 ， 看 起 来 没什么 坏处 。 但 实际 上 这 种 组 合 性 的 结构 对 算法 有 
深刻 的 影响 ， 使 得 有 向 图 和 无 向 图 的 处 理 大 有 不 同 。 本 节 中 ， 我 们 会 学 习 搜索 和 处 理 有 向 图 的 一 些 
经 典 算法 。 


表 4.2.1 实际 生活 中 的 典型 有 向 图 





应 用 项 点 边 
食物 链 物种 捕食 关系 
互联 网 连接 网 页 超 链接 
程序 模块 外 部 引用 
手机 电话 呼叫 
学 术 研 究 论文 引用 
金融 股票 交易 
网 络 计算 机 网 络 连 接 

4.2.1 术语 


虽然 我 们 为 有 向 图 的 定义 和 无 向 图 几乎 相同 将 使 用 的 部 分 算法 和 代码 也 是 ) ， 但 仍然 需要 在 
这 里 重复 一 遍 。 为 了 说 明 边 的 方向 性 而 产生 的 细小 文字 差异 所 代表 的 结构 特性 正 是 本 节 的 重点 。 


定义 。 一 幅 有 方向 性 的 图 ( 或 有 向 图 ) 是 由 一 组 顶点 和 一 组 有 方向 的 边 组 成 的 ， 每 条 有 方向 的 
边 都 连接 着 有 序 的 一 对 顶点 。 


我 们 称 一 条 有 向 边 由 第 一 个 顶点 指出 并 指向 第 二 个 顶点 。 在 -- 幅 有 向 图 中 ， 一 个 顶点 的 出 度 为 
由 该 顶点 指出 的 边 的 总 数 ; 一 个 顶点 的 入 度 为 指向 该 顶点 的 边 的 总 数 ( 请 见 图 4.2.1 ) 。 当 上 下 文 的 
意义 明确 时 ， 我 们 在 提 到 有 向 图 中 的 边 时 会 省 略 有 向 二 字 。 一 条 有 向 边 的 第 一 个 顶点 称 为 它 的 头 ， 
第 二 个 顶点 则 被 称 为 它 的 尾 。 将 有 向 边 画 为 由 头 指 向 尾 的 一 个 箭头 。 用 v 一 w 来 表示 有 向 图 中 一 条 
由 v 指 向 w 的 边 。 和 无 向 图 一 样 ， 本 节 的 代码 也 能 处 理 自 环 和 平行 边 ， 但 它们 不 会 出 现在 例子 中 ， 
在 正文 中 一 般 也 不 会 提 到 它们 。 除 了 特殊 的 图 ， 一 幅 有 向 图 中 的 两 个 项 点 的 关系 可 能 有 4 种 : 没有 
边 相 连 ; 存在 从 v 到 w 的 边 v 一 w; 存在 从 w 到 v 的 边 w 一 v; 既 存 在 v 一 w 也 存在 w 一 v， 即 双向 
的 连接 。 








定义 。 在 一 幅 有 向 图 中 ， 有 向 路 径 由 一 系列 顶点 组 成 ， 对 于 其 中 的 每 个 顶点 都 存在 一 条 有 向 边 
从 它 指向 序列 中 的 下 一 个 顶点 。 有 向 环 为 一 条 至 少 含有 一 条 边 且 起 点 和 终点 相同 的 有 向 路 径 。 
简单 有 向 环 是 一 条 ( 除了 起 点 和 终点 必须 相同 之 外 ) 不 含有 重复 的 顶点 和 边 的 环 。 路 径 或 者 环 
的 长 度 即 为 其 中 所 包含 的 边 数 。 


和 无 环 图 一 样 ， 我 们 假设 有 向 路 径 都 是 简单 的 ， 除 非 我 们 明确 指出 了 某 个 重复 了 的 项 点 ( 像 有 
向 环 的 定义 中 那样 ) 或 是 指明 是 一 般 性 的 有 向 图 。 当 存在 从 v 到 w 的 路 径 时 ， 称 顶点 w 能够 由 顶点 
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Vv 达到 。 我 们 约定 ， 每 个 顶点 都 能 够 达到 它 自己 。 除 了 这 种 情况 之 外 ， 在 有 向 图 中 由 v 能 够 到 达 w 
并 不 意味 着 由 w 也 能 到 达 v。 这 个 不 同 虽然 很 明显 但 非常 重要 ， 后 面 将 会 看 到 这 一 点 。 

要 理解 本 节 中 的 算法 ， 你 就 必须 要 理解 有 向 图 中 的 可 达 性 和 无 向 图 中 的 连通 性 的 区 别 。 理 解 这 
种 区 别 可 能 比 你 想象 得 更 困难 。 例 如 ， 尽 管 你 可 能 一 眼 就 能 看 出 一 小 幅 无 向 图 中 的 两 个 顶点 之 间 是 
否 连 通 , 但 是 在 一 小 幅 有 向 图 中 快速 找 出 一 条 有 向 路 径 就 不 那么 容易 了 ， 比 如 图 4.2.2 所 示 的 例子 。 
处 理 有 向 图 就 如 同 在 一 座 只 有 单行 道 的 城市 中 穿梭 ， 而 且 这 些 单行 道 的 方向 是 杂乱 无 章 的 。 在 这 种 
情况 下 ， 想 从 一 处 到 达 另 一 处 会 是 一 件 很 麻烦 的 事 。 但 与 直觉 相反 ， 我 们 用 来 表示 有 向 图 的 标准 数 
据 结构 甚至 比 无 向 图 的 表示 更 加 简单 ! 








有 向 边 
长 度 为 3 顶点 
的 有 向 环 、、 
长 度 为 4 的 
有 向 路 径 
入 度 为 3 出 一 
度 为 的 顶点 
图 4.2.1 有 向 图 详解 图 4.2.2 在 这 幅 有 向 图 中 ， 从 v 能 够 到 达 w 吗 567| 











4.2.2 ”有 向 图 的 数据 类 型 


以 下 这 份 API 以 及 下 一 页 中 的 Digraph 类 和 Graph 类 本 质 上 是 相同 的 ( 请 见 4.1.2.2 节 框 注 
“Graph 数据 类 型 ”) 。 


表 4.2.2 有 向 图 的 API 





public class Digraph 





DigraphCint V) 创建 一 幅 含有 7 个 顶点 但 没有 边 的 有 向 图 
Digraph(In in) 从 输入 流 in 中 读 取 一 幅 有 向 图 

int VO 顶点 总 数 

int EQ 边 的 总 数 

void addEdge(int v, int w) 向 有 向 图 中 添加 一 条 边 v 一 w 

Iterable<Integer> adj(int v) 由 v 指出 的 边 所 连接 的 所 有 顶点 
Digraph reverseQO 该 图 的 反 向 图 
String toString() 对 象 的 字符 串 表示 





4.2.2.1 有 向 图 的 表示 

我 们 使 用 邻接 表 来 表示 有 向 图 ， 其 中 边 v 一 w 表示 为 顶点 v 所 对 应 的 邻接 链表 中 包含 一 个 w 顶 
点 。 这 种 表示 方法 和 无 向 图 几乎 相同 而 且 更 明晰 ， 因 为 每 条 边 都 只 会 出 现 一 次 ， 如 后 面 框 注 “ 有 向 
图 ( diagraph ) 的 数据 类 型 ”所 示 。 
4.2.2.2 输入 格式 

由 输入 流 读 取 有 向 图 的 构造 函数 的 代码 与 Graph 类 中 相应 构造 函数 的 代码 完全 相同 一 “因为 两 者 
的 输入 格式 是 一 样 的 ， 但 所 有 的 边 都 是 有 向 边 。 在 边 列表 的 格式 中 ， 一 对 顶点 v 和 w 表 示 边 v 一 w。 
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4.2.2.3 有 向 图 取 反 


Digraph 的 API 中 还 添加 了 一 个 方法 reverse()。 它 返回 该 有 向 图 的 一 个 副本 ,但 将 其 中 所 有 
边 的 方向 反 转 。 在 处 理 有 向 图 时 这 个 方法 有 时 很 有 用 ， 因 为 这 样 用 例 就 可 以 找 出 “指向 ”每 个 顶点 
的 所 有 边 ， 而 adj 〇 给 出 的 是 由 每 个 顶点 指出 的 边 所 连接 的 所 有 顶点 。 


4.2.2.4 项 点 的 符号 名 


在 有 向 图 中 ， 人 允许 用 例 使 用 符号 作为 顶点 名 也 更 加 简单 。 要 实现 与 SymbolGraph 类 似 的 
Symbo1Digraph 类 ， 只 需要 将 其 中 的 Graph 字样 都 替换 成 Digraph 即 可 。 
花 一 点 时 间 对 比 一 下 后 面 框 注 中 的 代码 和 示意 图 与 4.1.2.1 节 及 4.1.2.2 节 的 框 注 “Graph 数据 类 
型 ”中 无 向 图 的 代码 是 非常 有 价值 的 。 在 用 邻接 表 表示 无 向 图 时 ， 如 果 v 在 w 的 链表 中 ， 那 么 w 必 
568| 然 也 在 v 的 链表 中 。 但 在 有 向 图 中 这 种 对 称 性 是 不 存在 的 。 这 个 区 别 在 有 向 图 的 处 理 中 影响 深远 。 

















Digraph 数据 类 型 
public class Digraph 
{ tinyDG. txt 
private final int V Vase 
private int E; 入 入” 
private Bag<Integer adj 和 


public Digraph(int \ 


this.y 
this.E 
adj = (Bag<Integ 


for (int v 





adjfv 





public int VCO) 
public int E 





public void addEdge(int v, int w) 


adj[v] .add(w); 
Ett 


public Tterable<Integer> 
{ rerurn adjfv] 


adj(int v 


public Digraph reverse() 
{ 
Digraph R = new Digraph(V); 
for (int v = 0; v <V; v++) 


for (int w : adj(v)) 
R.addEdge(w, v); 
return Ri 


} 


Digraph 数据 类 型 与 Graph 数据 类 型 ( 请 见 4.1.2.2 框 注 
“Graph 数据 类 型 ” ) 基本 相同 ， 区 别 是 addEdge() 只 调用 了 一 
次 add() ， 而 且 它 还 有 一 个 reverse0 方法 来 返回 图 的 反 向 图 。 
因为 两 者 的 代码 非常 相似 ， 所 以 省 略 了 toStringQ 方法 ( 请 见 
569| 表 4.1.2 ) 和 从 输入 流 中 读 取 图 的 构造 函数 。 
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4.2.3 ”有 向 图 中 的 可 达 性 

在 无 向 图 中 介绍 的 第 一 个 算法 就 是 4.1.3.2 节 中 的 DepthFirstSearch， 它 解决 了 单 点 连通 性 的 
问题 ， 使 得 用 例 可 以 判定 其 他 顶点 和 给 定 的 起 点 是 否 连通 。 使 用 完全 相同 的 代码 ， 将 其 中 的 Graph 
替换 为 Digraph， 也 可 以 解决 一 个 有 向 图 中 的 类 似 问题 。 

单 点 可 达 性 给 定 一 幅 有 向 图 和 一 个 起 点 s， 回 答 “ 是 否 存 在 一 条 从 s 到 达 给 定 顶 点 v 的 有 向 路 
径 ? ”等 类 似 问题 。 

算法 4.4 中 的 Di rectedDFS 类 将 DepthFirstSearch 稍 加 润色 并 实现 了 以 下 API。 


表 4.2.3 有 向 图 的 可 达 性 API 
public class DirectedDFS 





DirectedDFS(Digraph G, int s) 在 G 中 找到 从 s 可 达 的 所 有 顶点 
DirectedDFS(Digraph G, 在 G 中 找到 从 sources 中 的 所 有 顶点 可 达 的 所 有 
Iterable<Integer> sources) 顶点 
boolean marked(int v) v 是 可 达 的 吗 





在 添加 了 一 个 接受 多 个 顶点 的 构造 函数 之 后 , 这 份 API 使 得 用 例 能 够 解决 一 个 更 加 一 般 的 问题 。 

多 点 可 达 性 给 定 一 幅 有 向 图 和 顶点 的 集合 ， 回 答 “ 是 否 存 在 一 条 从 集合 中 的 任意 顶点 到 达 给 定 
顶点 v 的 有 向 路 径 ? ”等 类 似 问题 。 

我 们 在 5.4 节 中 解决 经 典 的 字符 串 处 理 问题 时 会 再 次 遇 到 这 个 问题 。 

DirectedDFS 使 用 了 解决 图 处 理 的 标准 范例 和 标准 的 深度 优先 搜索 来 解决 这 些 问题 。 它 对 每 个 
起 点 调用 递归 方法 dfs() ， 以 标记 过 到 的 任意 顶点 。 


命题 D。 在 有 向 图 中 ， 深 度 优先 搜索 标记 由 一 个 集合 的 顶点 可 达 的 所 有 顶点 所 需 的 时 间 与 被 标 
记 的 所 有 顶点 的 出 度 之 和 成 正比 。 


证 明 。 同 4.1.3.2 节 的 命题 A。 





图 4.2.3 显示 了 这 个 算法 在 处 理 有 向 样 图 时 的 操作 轨迹 。 这 份 轨迹 比 相应 的 无 向 图 算法 的 轨 [570 
迹 稍稍 简单 些 ， 因 为 深度 优先 搜索 本 质 上 是 一 种 适用 于 处 理 有 向 图 的 算法 ， 每 条 边 都 只 会 被 表示 
一 次 。 研 究 这 些 轨迹 有 助 于 巩固 你 对 有 向 图 中 深度 优先 搜索 的 理解 。 
算法 4.4 有 向 图 的 可 达 性 

public class DirectedDFS 


{ 


private boolean[] marked; 














public DirectedDFS(Digraph G, int s) 
{ 
marked = new boolean[G.VO]; 
dfs(G, s); 
有， 


public DirectedDFS(Digraph G, Iterable<Integer> sources) 
,1 
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571 











marked = new boolean[G.VO]; 
for (int s : sources) 
if (!marked[s]) dfs(G, s); 


了 
private void dfs(Digraph G, int v) % java DirectedDFS tinyDG.txt 1 
1 
marked[v] = true; 
for (int w : G.adj(v)) % java DirectedDFS tinyDG.txt 2 
if (1marked[w]) dfs(G, w; 012345 


} % java DirectedDFS tinyDG.txt 1 2 6 
public boolean markedCint v) 01234569101112 
{ return marked[v]; } 


public static void main(String[] args) 
{ 
Digraph G = new Digraph(new In(args[0])); 


Bag<Integer> sources = new Bag<Integer>(); 
for (int i = 1; i < args.length; i++) 
sources.add(Integer.parseInt(args[i])); 
DirectedDFS reachable = new DirectedDFS(G, sources); 
for (int v = 0; Vv < G.VO; v++) 
if (reachable.marked(v)) StdOut.print(v + " *); 
Stdout .println0O; 


和. 
} 


这 份 深度 优先 搜索 的 实现 使 得 用 例 能 够 判断 从 给 定 的 一 个 或 者 一 组 顶点 能 到 达 哪些 其 他 顶点 。 





4.2.3.1 标记 - 清除 的 垃圾 收集 

多 点 可 达 性 的 一 个 重要 的 实际 应 用 是 在 典型 的 内 存 管理 系统 中 ， 包 括 许多 Java 的 实现 。 在 一 
幅 有 向 图 中 ， 一 个 顶点 表示 一 个 对 象 ， 一 条 边 则 表示 一 个 对 象 对 另 一 个 对 象 的 引用 。 这 个 模型 很 好 
地 表现 了 运行 中 的 Java 程序 的 内 存 使 用 状况 。 在 程序 执行 的 任何 时 候 都 有 某 些 对 象 是 可 以 被 直接 
访问 的 ， 而 不 能 通过 这 些 对 象 访问 到 的 所 有 对 象 都 应 该 被 回收 以 便 释放 内 存 (请 见 图 4.2.4 ) 。 标 
记 -清除 的 垃圾 回收 策略 会 为 每 个 对 象 保留 一 个 位 做 垃圾 收集 之 用 。 它 会 周期 性 地 运行 一 个 类 似 于 
DirectedDFS 的 有 向 图 可 达 性 算法 来 标记 所 有 可 以 被 访问 到 的 对 象 ， 然 后 清理 所 有 对 象 ， 回 收 没有 
被 标记 的 对 象 ， 以 腾 出 内 存 供 新 的 对 象 使 用 。 
4.2.3.2 ”有 向 图 的 寻 路 

DepthFirstPaths ( 4.1.4.1 节 算 法 4.1 ) 和 BreadthFirstPaths ( 4.1.5 节 算 法 4.2) 也 都 是 有 
向 图 处 理 中 的 重要 算法 。 和 刚才 一 样 ， 同 样 的 API 和 代码 ( 仅 将 Graph 替换 为 Digraph ) 也 能 够 
高 效 地 解决 以 下 问题 。 

单 点 有 向 路 径 给 定 一 幅 有 向 图 和 一 个 起 点 s， 回 答 “ 从 s 到 给 定 目的 顶点 v 是否 存在 一 条 有 向 
路 径 ? 如 果 有 ， 找 出 这 条 路 径 。” 等 类 似 问 题 。 

单 点 最 短 有 向 路 径 给 定 一 幅 有 向 图 和 一 个 起 点 s， 回 答 “ 从 s 到 给 定 目的 顶点 v 是 否 存在 一 条 
有 向 路 径 ? 如 果 有 ， 找 出 其 中 最 短 的 那 条 ( 所 含 边 数 最 少 ) 。” 等 类 似 问题 。 
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图 4.2.3 使 用 深度 优先 搜索 在 一 幅 有 向 图 中 寻找 能 够 从 顶点 0 到 达 的 所 有 顶点 的 轨迹 
在 本 书 的 网 站 上 以 及 本 节 最 后 的 练习 中 ,我们 将 以 上 问题 的 答案 分 别 命名 为 DepthFirst- 572 
DirectedPaths 和 BreadthFirstDirectedPaths 573 
4.2.4 环 和 有 向 无 环 图 


在 和 有 向 图 相关 的 实际 应 用 中 ， 有 向 环 特别 的 重要 。 没 有 计算 机 的 帮助 ， 在 一 幅 普 通 的 有 向 图 
中 找 出 有 向 环 可 能 会 很 困难 。 从 原则 上 来 说 ， 一 幅 有 向 图 可 能 含有 大 量 的 环 ; 在 实际 应 用 中 ,我们 
一 般 只 会 重点 关注 其 中 一 小 部 分 ， 或 者 只 想 知道 它们 是 否 存在 (请 见 图 4.2.5) 。 
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图 4.2.4 垃圾 回收 示意 图 图 4.2.5 这 幅 有 向 图 含有 有 向 环 吗 


为 了 在 有 向 图 处 理 中 研究 有 向 环 的 作用 更 加 有 趣 , 我 们 来 看 看 下 面 这 个 有 向 图 模型 的 原型 应 用 。 
4.2.4.1 调度 问题 

-种 应 用 广泛 的 模型 是 给 定 一 组 任务 并 安排 它们 的 执行 顺序 ， 限 制 条 件 是 这 些 任务 的 执行 方法 
和 起 始 时 间 。 限 制 条 件 还 可 能 包括 任务 的 时 耗 以 及 消耗 的 其 他 资源 。 最 重要 的 一 种 限制 条 件 叫 做 优 
先 级 限制 ， 它 指明 了 哪些 任务 必须 在 哪些 任务 之 前 完成 。 不 同类 型 的 限制 条 件 会 产生 不 同类 型 不 同 
难度 的 调度 问题 。 研 究 者 已 经 解决 了 上 千 种 不 同 的 此 类 问题 ,而且 还 在 为 其 中 许多 寻找 更 好 的 算法 。 
以 一 个 正在 安排 课程 的 大 学 生 为 例 ， 有 些 课程 是 其 他 课程 的 先导 课程 ， 如 图 4.2.6 所 示 。 
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图 4.2.6 有 优先 级 限制 的 调度 问题 
如 果 青 假设 该 学 生 一 次 只 能 修一 门 课 ， 实 际 上 就 遇 到 了 下 面 这 个 问题 。 
优先 级 限制 下 的 调度 问题 。 给 定 一 组 需要 完成 的 任务 ， 以 及 一 组 关于 任务 完成 的 先后 次 序 的 优 
先 级 限制 。 在 满足 限制 条 件 的 前 提 下 应 该 如 何 安排 并 完成 所 有 任务 ? 
对 于 任意 一 个 这 样 的 问题 ， 我 们 都 可 以 马上 画 出 一 张 有 向 图 ， 其 中 顶点 对 应 任务 ， 有 向 边 对 应 
优先 级 顺序 .为 了 简化 问题 ,我 们 以 使 用 整数 为 顶点 编号 的 标准 模型 来 表示 这 个 示例 ,如 图 4.2.7 所 示 。 
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(0) 在 有 向 图 中 , 优先 级 限制 下 的 调度 问题 等 价 于 下 面 这 个 基本 的 问题 。 


全 (SD 拓扑 排序 。 给 定 一 幅 有 向 图 ， 将 所 有 的 顶点 排序 ， 使 得 所 有 的 
有 向 边 均 从 排 在 前 面 的 元 素 指向 排 在 后 面 的 元 素 ( 或 者 说 明 无 法 做 
入 到 这 一 点 ) 。 
@ 
G 一 四 


图 4.2.8 为 示例 的 拓扑 排序 。 所 有 的 边 都 是 向 下 的 ， 所 以 它 清晰 
地 表示 了 这 幅 有 向 图 模型 所 代表 的 有 优先 级 限制 的 调度 问题 的 一 个 
解决 方法 : 按照 这 个 顺序 ， 该 同学 可 以 在 满足 先导 课程 限制 的 条 件 


轩 427 标准 有 向 图 模型 下 他 完 所 有 课程 。 这 个 应 用 是 很 典型 的 一 表 42.4 列举 了 其 他 一些 








有 代表 性 的 应 用 。 
表 4.2.4 拓扑 排序 的 典型 应 用 i 
应 用 项 点 边 
任务 调度 任务 优先 级 限制 Calculus 
课程 安排 课程 先导 课程 限制 @ Linear Algebra 
继承 Java 类 extends 关系 
Q) Introduction to CS 
电子 表格 单元 格 (cell) 公式 
符号 链接 文件 名 链接 G@G) Advanced Programming 
4.2.4.2 ”有 向 图 中 的 环 OO Algorithms 
如 果 任 务 x 必须 在 任务 y 之 前 完成 ， 而 任务 y 必须 6) Theoretical CS 
在 任务 z 之 前 完成 , 但 任务 z 又 必须 在 任务 x 之 前 完成 ， 二 
那 肯定 是 有 人 搞 错 了 ， 因 为 这 三 个 限制 条 件 是 不 可 能 被 9 ei 
同时 满足 的 。 一 般 来 说 ， 如 果 一 个 有 优先 级 限制 的 问题 (9 Robotics 
中 存在 有 向 环 ， 那 么 这 个 问题 肯定 是 无 解 的 。 要 检查 这 ene amid 
种 错误 ， 需 要 解决 下 面 这 个 问题 。 
有 向 环 检测 。 给 定 的 有 向 图 中 包含 有 向 环 吗 ? 如果 (3 Neural Networks 
有 ， 按照 路 径 的 方向 从 某 个 顶点 并 返回 自己 来 找到 环 上 ao bt 
的 所 有 项 点。 
一 幅 有 向 图 中 含有 的 环 的 数量 可 能 是 图 的 大 小 的 指 ©) Scientific Computing 
数 级 别 ( 请 见 练习 4.2.11 ) ， 因 此 我 们 只 需要 找 出 一 个 环 Qo) CR 
即 可 ， 而 不 是 所 有 环 。 在 任务 调度 和 其 他 许多 实际 问题 
中 不 允许 出 现 有 向 环 ， 因 此 不 含有 环 的 有 向 图 就 变 得 很 图 42.8 拓扑 排序 


特殊 。 


定义 。 有 向 无 环 图 (DAG ) 就 是 一 幅 不 含有 环 的 有 向 图 。 


因此 ， 解 决 有 向 图 检测 的 问题 可 以 回答 下 面 这 个 问题 ， 一 幅 有 向 图 是 有 向 无 环 图 吗 ? 基于 深度 
优先 搜索 来 解决 这 个 问题 并 不 困难 ， 因 为 由 系统 维护 的 递归 调用 的 栈 表示 的 正 是 “当前 ”正在 遍历 
的 有 向 路 径 ( 就 好 像 用 Tremaux 方法 探索 迷宫 时 的 那 条 绳子 一 样 ) 。 一 旦 我 们 找到 了 -一 条 边 vw 
且 w 已 经 存在 于 栈 中 ， 就 找到 了 一 个 环 ， 因 为 栈 表示 的 是 一 条 由 w 到 v 的 有 向 路 径 , 而 v 一 w 正好 
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补 全 了 这 个 环 。 同 时 ， 如 果 没 有 找到 这 样 的 边 ， 那 就 意味 着 这 幅 有 向 图 是 无 环 的 ， 见 图 4.2.9。 请 见 
后 面 框 注 “ 寻 找 有 向 环 ”中 的 DirectedCycle 基于 这 个 思想 实现 了 表 4.2.5 中 的 API。 


表 4.2.5 有 向 环 的 API 


public class DirectedCycle 


























DirectedCycle(Digraph G) 寻找 有 向 环 的 构造 函数 
boolean hasCycleQO) G 是 否 含有 有 向 环 
Iterable<Integer> “cycleO) 有 向 环 中 的 所 有 顶点 ( 如 果 存 在 的 话 ) 
©@ marked[] edgeTo[] onStack[] 
-0-® DIZI45 TIT73945 VIII4S 
©@ dfs(0) 
区 1 ,9 1 9 
d 
(0 ®) @ dfs(3) 1 4 1 
记 站 检查 5 号 顶点 1 0 0 111 -==458 1ool10 
OO 
S75 
576, 图 4.2.9 在 一 幅 有 向 图 中 寻找 环 
寻找 有 向 环 
public class DirectedCycle 


private boolean[] marked 
private int[] edgeT 

private Stack<Integer> cycle;  // 有 向 环 申 的 所 有 项 点 ( 如果 存在 ) 
private boolean[] onStack; // 通 归 调用 的 栈 上 的 所 有 顶点 





public DirectedCycle (Digra 


onStack = new boolean[G.VO]; 


edgeTo = new in 





"fF Crmarked [vl) dfs © “een © 
private void dfs(Digraph G 和 @ 
{ G) 3|4 

onStack[v] = true; /maD ‘ls © 
marked[ rue @, 
for (int adj(v © 
if (this.hasCycle()) return; wx 有 向 环 
tse if 《imarked[w 3 
rap : w] df 4 43 
else if (onStack[w]) 3 i : 4 3 
有 向 环 检测 的 轨迹 


cycle = new Stack<Integer>O); 
for (int x = Vv; x != w; x = edgeTo[x]) 
cycle.pushGx); 


cycle.push(w); 
cycle-pushCv); 


onStack[v] = false; 
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public boolean hasCycleO 
{ return cycle != nul1; } 


public Iterable<Integer> cycle() 
{ return cycle; } 
} 
该 类 为 标准 的 递归 dfs() 方法 添加 了 一 个 布尔 类 型 的 数组 onStack[] 来 保存 递归 调用 期 间 栈 上 的 
所 有 项 点 。 当 它 找到 一 条 边 v 一 w 且 w 在 栈 中 时 ， 它 就 找到 了 一 个 有 向 环 。 环 上 的 所 有 项 点 可 以 通过 
edgeTo[] 中 的 链接 得 到 。 





在 执行 dfs(G,v) 时 ， 查 找 的 是 一 条 由 起 点 到 v 的 有 向 路 径 。 要 保存 这 条 路 径 ，Direc- 
tedCycle 维护 了 一 个 由 顶点 索引 的 数组 onStack[] ， 以 标记 递归 调用 的 栈 上 的 所 有 顶点 ( 在 调用 
dfs(G,v) 时 将 onStack[v] 设 为 true， 在 调用 结束 时 将 其 设 为 false ) 。DirectedCycle 同时 也 
使 用 了 一 个 edgeTo[] 数组 ， 在 找到 有 向 环 时 返回 环 中 的 所 有 顶点 ， 方 法 和 DepthFirstPaths (请 
见 算法 4.1 ) 以 及 BreadthFirstPaths (请 见 算法 4.2 ) 相同 。 
4.2.4.3 ”项 点 的 深度 优先 次 序 与 拓扑 排序 

优先 级 限制 下 的 调度 问题 等 价 于 计算 有 向 无 环 图 中 的 所 有 项 点 的 拓扑 排序 ， 因 此 有 表 4.2.6 所 
示 的 API。 


表 4.2.6 拓扑 排序 的 API 
public class Topological 








Topological (Digraph GO) 拓扑 排序 的 构造 两 数 
boolean isDAGO 6G 是 有 向 无 环 图 吗 
Iterable<Integer> order() 拓扑 有 序 的 所 有 顶点 


命题 E。 当 且 仅 当 一 幅 有 向 图 是 无 环 图 时 它 才能 进行 拓扑 排序 。 


证 明 。 如 果 一 幅 有 向 图 含有 一 个 环 ， 它 就 不 可 能 是 拓扑 有 序 的 。 与 此 相反 ， 我们 将 要 学 习 的 算 
法 能 够 计算 任意 有 向 无 环 图 的 拓扑 顺序 。 


值得 注意 的 是 ， 实 际 上 我 们 已 经 见 过 一 种 拓扑 排序 的 算法 : 只 要 添加 一 行 代码 ， 标 准 深度 优先 
搜索 程序 就 能 完成 这 项 任务 ! 要 做 到 这 一 点 ,我 们 先 来 看 看 后 面 框 注 “ 有 向 图 中 基于 深度 优先 搜索 
的 顶点 排序 ” 的 DepthFirstOrder 类 。 它 的 基本 思想 是 深度 优先 搜索 正好 只 会 访问 每 个 顶点 一 次 。 
如 果 将 dfsQ 的 参数 硕 点 保存 在 一 个 数据 结构 中 ， 遍 历 这 个 数据 结构 实际 上 就 能 访问 图 中 的 所 有 项 
点 ,遍历 的 顺序 取决 于 这 个 数据 结构 的 性 质 以 及 是 在 递归 调用 之 前 还 是 之 后 进行 保存 。 在 典型 的 应 
用 中 ， 人 们 感 兴趣 的 是 顶点 的 以 下 3 种 排列 顺序 。 

口 前 序 : 在 递归 调用 之 前 将 项 点 加 入 队列 。 

口 后 序 : 在 递归 调用 之 后 将 顶点 加 入 队列 。 

口 道 后 序 : 在 递归 调用 之 后 将 顶点 压 人 栈 。 

图 4.2.10 所 示 的 是 用 DepthFirstorder 处 理 有 序 无 环 样 图 所 产生 的 轨迹 。 它 的 实现 简 
单 ， 支 持 在 图 的 高 级 处 理 算法 中 十 分 有 用 的 pre()、post() 和 reversePost() 方法。 例如， 
Topological 类 中 的 orderQ 方法 就 调用 了 reversePost() 方法 。 
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前 序 就 是 dfs() 后 序 就 是 顶点 遍 
的 调用 顺序 历 完成 的 顺序 
pre post reversePost 
dfs(0) 0 
dfs(5) 0 5 
dfs(4) 05 4 WN & 列 模 
4 完 4 4 4 / 
5 完成 45 5% 
dfs(1) 0541 
1 完成 451 154 
dfs(6) 05416 
dfs(9) 054169 
dfs(11) 0541691 
dfs(12) 0541691112 
12 完成 451 12 12154 
11 完成 4511211 1112154 
dfs(10) 054169111210 
10 完成 451121110 101112154 
检查 12 
9 完成 4511211109 9101112154 
检查 4 
6 完成 45112111096 69101112154 
0 完成 451121110960 069101112154 
检查 工 
dfsC2) 0541691112 102 
查 0 
dfs(3) 05416911121023 
检查 5 
3 完成 4511211109603 3069101112154 
2 完成 
检查 3 45112111096032 23069101112154 
检查 4 
检查 5 
检查 6 
dfs(7) 054169111210237 
检查 6 
7 完成 451121110960327 723069101112154 
dfsC8) 0541691112102378 
检查 7 
8 完成 45112111096032788723069101112154 
检查 9 
检查 10 
检查 11 北 局 
检查 12 二 
3579 图 4.2.10 计算 有 向 图 中 顶点 的 深度 优先 次 序 (前 序 、 后 序 和 逆 后 序 ) 
有 向 图 中 基于 深度 优先 搜索 的 项 点 排序 
public class DepthFirstOrder 
private boolean[] narkeds 
private Queue<Integer> pre; // 所 有 顶点 的 前 序 排列 
private Queue<Integer> post; // 所 有 项 点 的 后 序 排列 


private Stack<Integer> reversePost; // 所 有 项 点 的 到 后 序 排列 
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pup1ic DepthFirstOrder(Digraph ©) 
{ 





pre = new Queue<Integer>0); 
post = new Queue<Integer>(); 
reversePost = new Stack<Integer>(); 
marked = new boolean[G.VO]; 

for (int v v<GNV + 





if CImarked[v]) dfs(G 


private void dfs{Digraph G, int 


pre.enqueue(v); 


markedfv] = tr 


for (int w : G.adj(W) 








iF (Imarked[w] 
Hfs(G, Ww); 


post.enqueue(Vv); 
reversePost.push(v); 
} 


public Iterable<Integer> pre() 

{ return pre; } 

public Iterable<Integer> post() 

{ return post; } 

public Iterable<Integer> reversePost() 
{ return reversePost; } 


} 


该 类 允许 用 例 用 各 种 顺序 遍历 深度 优先 搜索 经 过 的 所 有 顶点 。 这 在 高 级 的 有 向 图 处 理 算法 中 非常 有 
用 ， 因 为 搜索 的 递归 性 使 得 我 们 能 够 证 明 这 段 计 算 的 许多 性 质 ( 例如 命题 F) 。 580 

















命题 4.5 拓扑 排序 


public class Topological 





private Iterable<Integer> order; // 顶 吉 的 拓扑 顺序 
public Topological(Digraph G) 
{ 
DirectedCycle cyclefinder = new DirectedCycle(O); 
if (!cyclefinder.hasCycleO)) 
{ 
DepthFirstOrder dfs = new DepthFirstOrder(G); 
order = dfs.reversePost(O); 
} 
+. 


public Iterable<Integer> order() 
{ return order; } 

public boolean isDAGO 

{ return order != nul1; } 
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581 








public static void main(String[] args) 


{ 
String filename = args[0]; 
String separator = args[1]; 
SymbolDigraph sg = new SymbolDigraph(filename, separator); 
Topological top = new Topological(sg.6O); 
for (int v : top.order()) 
Stdout .printlnCsg.name(Cv)); 


} 


这 段 代 码 使 用 了 DepthFirstOrder 类 和 DirectedCycle 类 来 返回 一 幅 有 向 无 环 图 的 拓扑 排序 。 
其 中 的 测试 代码 解决 了 一 幅 Symbo1Digraph 中 有 优先 级 限制 的 调度 问题 。 在 给 定 的 有 向 图 包含 环 时 ， 
order() 方法 会 返回 nu11， 否 则 会 返回 一 个 能 够 给 出 拓扑 有 序 的 所 有 项 点 的 迭代 器 。 这 里 省 略 了 关于 
Symbol1Digraph 的 代码 ， 因 为 它 和 Symbol1Graph ( 请 见 表 4.1.1 ) 的 代码 几乎 完全 相同 ， 只 需 把 所 有 的 
Graph 替换 为 Digraph 即 可 








命题 F。 一 幅 有 向 无 环 图 的 拓扑 排序 即 为 所 有 顶点 的 逆 后 序 排列 。 


证 明 。 对 于 任意 边 v 一 w， 在 调用 dfs(v) 时 ， 下 面 三 种 情况 必 有 其 一 成 立 ( 请 见 图 4.2.11 ) 。 
口 dfs(w) 已 经 被 调用 过 且 已 经 返回 了 (w 已 经 被 标记 ) 。 
口 dfs(w) 还 没有 被 调用 (w 还 未 被 标记 ) ， 因 此 v 一 w 会 直接 或 间接 调用 并 返回 
dfs(w)， 且 dfs(w) 会 在 dfs(v) 返回 前 返回 。 
口 dfs(w) 已 经 被 调用 但 还 未 返回 。 证 明 的 关键 在 于 ， 在 有 向 无 环 图 中 这 种 情况 是 不 可 能 出 
现 的 ,这 是 由 于 递归 调用 链 意味 着 存在 从 w 到 v 的 路 径 ， 但 存在 v 一 w 则 表示 存在 一 个 环 。 
在 两 种 可 能 的 情况 中 ，dfs(w) 都 会 在 dfs(v) 之 前 完成 ， 因 此 在 后 序 排列 中 w 排 在 v 之 前 而 
在 敌后 序 中 w 排 在 v 之 后 。 因 此 任意 一 条 边 v 一 'w 都 如 我 们 所 愿 地 从 排名 较 前 顶点 指向 排名 较 后 的 
顶点 。 


% more jobs.txt 

Algorithms/Theoretical CS/Databases/Scientific Computing 
Introduction to CS/Advanced Programming/Algorithms 

Advanced Programming/Scientific Computing 

Scientific Computing/Computational Biology 

Theoretical CS/Computational Biology/Artificial Intelligence 
Linear Algebra/Theoretical CS 

Calculus/Linear Algebra 


Artificial Intelligence/Neural Networks/Robotics/Machine Learning 
Machine Learning/Neural Networks 


% java Topological jobs.txt "/" 
Calculus 

Linear Algebra 

Introduction to CS 


Advanced Programming 
Algorithms 

Theoretical CS 
Artificial Intelligence 
Robotics 

Machine Learning 
Neural Networks 


Databases 
Scientific Computing 
Computational Biology 


Topological 类 ( 请 见 算法 4.5 ) 的 实现 使 
用 了 深度 优先 搜索 来 对 有 向 无 环 图 进行 拓扑 排 
序 。 图 4.2.11 为 排序 的 轨迹 。 


命题 G。 使 用 深度 优先 搜索 对 有 向 无 环 图 进 
行 拓扑 排序 所 需 的 时 间 和 V+E 成 正比 。 


证 明 。 由 代码 可 知 ， 第 一 遍 深 度 优先 搜索 保 
证 了 不 存在 有 向 环 ， 第 二 遍 深 度 优先 搜索 产 
生 了 顶点 的 逆 后 序 排序 。 两 次 搜索 都 访问 了 
所 有 的 顶点 和 所 有 的 边 ， 因 此 它 所 需 的 时 间 
和 V+E 成 正比 。 


尽管 算法 很 简单 ， 但 是 它 被 忽略 了 很 多 年 ， 
比 它 更 流行 的 是 一 种 使 用 队列 储存 项 点 的 更 加 直 
观 的 算法 。 ( 请 见 练习 4.2.30 ) 

在 实际 应 用 中 ， 拓 扑 排序 和 有 向 环 的 检测 总 
会 一 起 出 现 ， 因 为 有 向 环 的 检测 是 排序 的 前 提 。 
例如 ， 在 一 个 任务 调度 应 用 中 ， 无 论 计划 如 何 安 
排 ， 其 背后 的 有 向 图 中 包含 的 环 意味 着 存在 一 个 
必须 被 纠正 的 严重 错误 。 因 此 ， 解 决 任务 调度 类 
应 用 通常 需要 以 下 3 步 : 

口 指明 任务 和 优先 级 条 件 ; 


口 使 用 拓扑 排序 解决 调度 问题 。 


类 似 地 ， 调 度 方 案 的 任何 变动 之 后 都 需要 再 次 检查 是 否 存在 环 (使 用 DirectedCycle 类 ) ， [582| 


然后 在 计算 新 的 调度 安排 (使 用 Topological 类 ) 。 


dfs(0) 
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582| 











dfs(5) 


dfs(4) 在 dfs(0) 完 成 之 前 ， 


4 
5 完 


dfs(1D) 的 dfs(5) 就 已 经 完 


1 完 


dfs(6) 向 上 指 的 
dfs(9) 


9 

检 

6 完 
0 完成 
检查 1 
dfsC2) 
检查 
dfs( 
从 


3 完成 处 理 顶 点 7 的 已 被 标 


2 完成 
检查 3 
检查 4 
检查 5 
检查 6 
dfs(7) 

答 查 
7 完成 
dfs(8) 

检查 
8 完成 
检查 9 


检查 10 
检查 11 









完成 处 理 顶 点 0 的 未 被 
成 < 标记 的 相 邻 顶点 5 


成 成 ， 因 此 0 一 5 是 


dfs(11) 
dfs(12) 
12 完成 

11 完成 

dfs(10) 

10 完成 

检查 12 

完成 

查 4 

成 


0 

3) 

查 5 在 dfs(7) 完 成 之 前 ， 
记 的 相 邻 顶点 6 的 


dfs(6) 就 已 经 完成 ， 
因此 7 一 6 是 向 上 : 


6 
所 有 的 边 都 是 指向 


C) 
上 的 ， 颠 倒 过 来 就 
是 一 次 拓扑 排序 


逆 后 序 就 是 顶点 
遍历 完成 顺序 的 


检查 12 逆 (从 下 往 上 ) 
图 4.2.11 有 向 无 环 图 的 逆 后 序 是 拓扑 排序 


口 不 断 检 测 并 去 除 有 向 图 中 的 所 有 环 ， 以 确保 存在 可 行 方案 的 ; 
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4.2.5 ”有 向 图 中 的 强 连 通 性 

在 前 文中 ,我 们 仔细 区 别 了 有 向 图 中 的 可 达 性 和 无 向 图 中 的 连通 性 。 在 一 幅 无 向 图 中 ， 如 果 有 
一 条 路 径 连接 项 点 v 和 w, 则 它们 就 是 连通 的 一 一 既 可 以 由 这 条 路 径 从 w 到 达 v, 也 可 以 从 v 到 达 w 
相反 ， 在 一 幅 有 向 图 中 ， 如 果 从 顶点 v 有 一 条 有 向 路 径 到 达 w， 则 项 点 w 是 从 顶点 可 达 的 ， 但 从 
w 到 达 v 的 路 径 可 能 存在 也 可 能 不 存在 。 在 对 有 向 图 的 研究 中 ,我 们 也 会 考虑 与 无 向 图 中 的 连通 性 
类 似 的 一 个 问题 。 


定义 如果 两 个 顶点 v 和 ww 是 互相 可 达 的 ， 则 称 它们 为 强 连通 的 。 也 就 是 说 ， 既 存在 一 条 从 v 
到 w 的 有 向 路 径 ， 也 存在 一 条 从 w 到 v 的 有 向 路 径 。 如 果 一 幅 有 向 图 中 的 任意 两 个 顶点 都 是 强 
连通 的 ， 则 称 这 幅 有 向 图 也 是 强 连通 的 。 


图 4.2.12 给 出 了 几 个 强 连通 图 的 例子 。 从 这 些 例子 中 你 可 以 看 
到 ， 环 在 强 连通 性 的 理解 上 起 着 重要 的 作用 。 事 实 上 ， 回 忆 一 下 一 
条 普通 的 有 向 环 可 能 含有 重复 的 顶点 就 很 容易 知道 ， 两 个 顶点 是 强 
连通 的 当 且 仅 当 它们 都 在 一 个 普通 的 有 向 环 中 ( 证 明 : 画 出 从 v 到 


O 〇 
w 和 从 w 到 v 的 路 径 即 可 ) 。 od 


4.2.5.1 强 连通 分 量 
和 无 向 图 中 的 连通 性 一 样 ， 有 向 图 中 的 强 连 通 性 也 是 一 种 顶点 

之 间 平 等 关系 ， 因 为 它 有 着 以 下 性 质 。 ?FT 
口 自 反 性 ; 任意 顶点 v 和 自己 都 是 强 连通 的 。 


口 对 称 性 : 如 果 v 和 Ww 是 强 连 通 的 , 那么 w 和 v 也 是 强 连通 的 。 C00 
口 传递 性 : 如 果 v 和 w 是 强 连通 的 且 w 和 x 也 是 强 连通 的 ， 那 Oo 
么 v 和 x 也 是 强 连通 的 。 

作为 一 种 平等 关系 ， 强 连通 性 将 所 有 项 点 分 为 了 一 些 平等 的 部 
分 ， 每 个 部 分 都 是 由 相互 均 为 强 连 通 的 项 点 的 最 大 子 集 组 成 的 。 我 
们 将 这 些 子 集 称 为 强 连通 分 量 ， 请 见 图 4.2.13。 样 图 tinyDG.txt 含 
有 5 个 强 连 通 分 量 。 一 个 含有 上 个 顶点 的 有 向 图 含有 1 .个 强 连 
通 分 量 一 “一 个 强 连 通 图 只 含有 一 个 强 连 通 分 量 ， 而 一 个 有 向 无 环 
图 中 则 含有 六 个 强 连通 分 量 。 需 要 注意 的 是 强 连 通 分 量 的 定义 是 基 
于 顶点 的 ， 而 非 边 。 有 些 边 连 接 的 两 个 顶点 都 在 同一 个 强 连通 分 量 中 ， 而 有 些 边 连接 的 两 个 顶点 则 
在 不 同 的 强 连通 分 量 中 。 后 者 不 会 出 现在 任何 有 向 环 之 中 。 与 识别 连通 分 量 在 无 向 图 中 的 重要 性 一 
样 , 在 有 向 图 的 处 理 中 识别 强 连通 分 量 也 是 非常 重要 的 。 
4.2.5.2 应 用 举例 

在 理解 有 向 图 的 结构 时 ， 强 连通 性 是 一 种 非常 重要 
的 抽象 ， 它 突出 了 相互 关联 的 几 组 顶点 ( 强 连通 分 量 ) 。 
例如 ， 强 连通 分 量 能 够 帮助 教科 书 的 作者 决定 哪些 话题 
应 该 被 归 为 一 类 ， 或 帮助 程序 员 组 织 程序 的 模块 (请 见 
表 4.2.7) 。 图 4.2.14 是 一 个 生态 学 的 例子 。 这 幅 有 向 图 
措 绘 的 是 各 种 生物 之 间 的 食物 链 模型 ， 其 中 顶点 表示 物 


图 4.2.12 强 连 通 的 有 向 图 





图 4.2.13 一 幅 有 向 图 和 它 的 强 连通 分 量 
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种 ， 而 从 一 个 顶点 指向 另 一 个 顶点 的 一 条 边 则 表示 
指向 顶点 的 物种 对 指出 顶点 的 物种 的 捕食 关系 。 这 
些 有 向 图 ( 其 中 物种 和 捕食 关系 都 是 经 过 仔细 选择 
和 研究 的 ) 的 科学 研究 有 效 地 帮助 了 生态 学 家 解决 
生态 系统 中 的 一 些 基本 问题 。 这 种 有 向 图 中 的 强 连 
通 分 量 能 够 帮助 生态 学 家 理解 食物 链 中 能 量 的 流动 。 
图 4.2.17 所 示 的 是 一 张 表示 网 络 内 容 的 有 向 图 ， 其 
中 顶点 表示 网 页 ， 而 边 表示 从 一 个 页 面 指向 另 一 个 
页 面 的 超 链接 。 在 这 样 一 幅 有 向 图 中 ， 强 连通 分 量 
能 够 帮助 网 络 工程 师 将 网 络 中 数量 庞大 的 网 页 分 为 
多 个 大 小 可 以 接受 的 部 分 分 别 进行 处 理 。 练 习 和 本 
书 的 网 站 会 涉及 这 些 应 用 和 其 他 例子 的 更 多 性 质 。 





图 4.2.14 一 幅 表 示 食 物 链 的 有 向 图 的 一 
分 


小 


表 4.2.7 强 连通 分 量 的 典型 应 用 








应 用 项 点 边 

网 络 网 页 超 链 接 

教科 书 话题 引用 

软件 模块 调用 [584 
食物 链 物种 拉 食 关系 585 








因此 ， 在 有 向 图 中 我 们 也 需要 表 4.2.8 所 列 的 这 份 和 CC ( 请 见 表 4.1.6 ) 类 似 的 API。 


表 4.2.8 强 连通 分 量 的 API 
一 一 一 一 一 一- 


public class SCC 





SCCCDigraph G) 预 处 理 构造 函数 
boolean stronglyConnected(int v，int w) Vv 和 w 是 强 连 通 的 吗 
int count() 图 中 的 强 连通 分 量 的 总 数 
pt v 所 在 的 强 连通 分 量 的 标识 符 ( 在 0 至 
1 countO-1 之 间 ) 


设计 一 种 平方 级 别 的 算法 来 计算 强 连通 分 量 ( 请 见 练习 4.2.23 ) 并 不 困难 ,但 ( 和 以 前 一 样 ) 
对 于 处 理 在 实际 应 用 中 经 常 遇 到 的 像 刚才 示例 所 示 的 大 型 有 向 图 来 说 ,平方 级 别 的 时 间 和 空间 需求 
是 不 可 接受 的 。 
4.2.5.3 ”Kosaraju 算法 

我 们 在 CC ( 请 见 算法 4.3 ) 中 看 到 过 ,计算 无 向 图 中 的 连通 分 量 只 是 深度 优先 搜索 的 一 
个 简单 应 用 。 那 么 在 有 向 图 中 应 该 如 何 高 效 地 计算 强 连 通 分 量 呢 ? 令 人 惊讶 的 是 ， 算 法 4.6 中 
的 Kosarajucc 的 实现 只 为 CC 添加 了 几 行 代码 就 做 到 了 这 一 点 ， 它 将 会 完成 以 下 任务 ( 请 见 
图 4.2.15) 。 

口 在 给 定 的 一 幅 有 向 图 G 中 ,使 用 DepthFirstOrder 来 计算 它 的 反 向 图 Ge 的 逆 后 序 排列 

口 在 G 中 进行 标准 的 深度 优先 搜索 ， 但 是 要 按照 刚才 计算 得 到 的 顺序 而 非 标准 的 顺序 来 访问 

所 有 未 被 标记 的 顶点 。 
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口 在 构造 函数 中 , 所 有 在 同一 个 递归 dfsQ 调用 中 被 访问 到 的 顶点 都 在 同一 个 强 连通 分 量 中 ， 
将 它们 按照 和 CC 相同 的 方式 识别 出 来 。 


在 C 中 进行 深度 优先 搜索 


在 G" 中 进行 深度 优先 搜索 
(KosarajuSCC) (DepthFirstOrder) 
: 假设 v 对 于 s 是 可 1 
“afs(s) 达 的 ， 那 么 (中 ”dfs(s) a 
: 必定 含有 一 条 从 : Pi 
dfs(v) S 到 v 的 路 从 dfs(v) 
v 守 v 完成 
s 完成 





不 可 能 ， 因 为 C* 中 含 
有 一 条 从 v 到 5 的 路 径 








586| 








图 4.2.15 Kosaraju 算法 的 正确 性 证 明 


算法 4.6 计算 强 连通 分 量 的 Kosaraju 算法 





public class KosarajuSCC 


private boolean[] marked; 。 // 已 访问 过 的 项 点 
private int[] id // 强 连通 分 量 的 标识 符 
private int count // 强 连 通 分 量 的 数量 
pub]ic KosarajuSCc(Digraph 

marked new boo [G,vO] 





id = new int[G.VO] 


DepthFirstOrder order = new DepthFirstOrder(G.reverse()); 
for (int s : order.reversePost() 





if Cmarked[s]) 
Se % java KosarajuSCC tinyDG.txt 
5 components 
1 
private void dfs(Digraph G, int v) 05432 
{ 1 12 9 10 
marked[v] true 6 
id[v] = count:; 87 
for (int ， 
if Ctmarked[ 
gfs CG, 网; 
public booTean stronglyConnected(int v, int » 
return id[v] 一 idfw 
public int idCint v) 
return idfvJ; } 


public int countO) 
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return coun 


突出 显示 的 代码 是 这 份 实现 和 CC ( 请 见 算法 4.3 ) 仅 有 的 不 同 之 处 ( 还 需要 将 4.1.6.1 节 中 用 到 的 
main() 函数 中 的 Graph 替换 为 Digraph，CC 替换 为 KosarajuSCC ) 。 为 了 找到 所 有 强 连通 分 量 ， 它 会 
在 反 向 图 中 进行 深度 优先 搜索 来 将 顶点 排序 (搜索 顺序 的 逆 后 序 ) ， 在 给 定 有 向 图 中 用 这 个 顺序 再 进行 
一 次 深度 优先 搜索 。 587 








Kosaraju 算法 是 一 个 典型 示例 ， 这 个 方法 容易 实现 但 难以 理解 。 尽 管 它 有 些 神秘 ， 但 如 果 你 能 
一 步 一 步 地 理解 下 面 这 个 命题 的 证 明 并 参考 图 4.2.4， 那 你 一 定 可 以 理解 这 个 算法 的 正确 性 。 


命题 H。 使 用 深度 优先 搜索 查找 给 定 有 向 图 G 的 反 向 图 Gx， 根 据 由 此 得 到 的 所 有 顶点 的 逆 后 
序 再 次 用 深度 优先 搜索 处 理 有 向 图 G ( Kosaraju 算法 ) ， 其 构造 函数 中 的 每 一 次 递归 调用 所 标 
记 的 顶点 都 在 同一 个 强 连通 分 量 之 中 。 


证 明 。 首 先 要 用 反 证 法 证 明 “ 每 个 和 s 强 和 连通 的 顶点 v 都 会 在 构造 函数 调用 的 dfs(G,s) 中 
被 访问 到 ”。 假 设 有 一 个 和 s 强 连通 的 顶点 v 不 会 在 构造 函数 调用 的 dfs(G,s) 中 被 访问 到 。 
因为 存在 从 s 到 v 的 路 径 ， 所 以 v 肯定 在 之 前 就 已 经 被 标记 过 了 。 但 是 ， 因 为 也 存在 从 v 到 
S 的 路 径 ， 在 dfs(G,v) 调用 中 5 肯定 会 被 标记 ， 因 此 构造 函数 应 该 是 不 会 调用 dfs(G,s) 的 。 
矛盾 。 
其 次 ， 要 证 明 “ 构 造 函 数 调用 的 dfs(G,s) 所 到 达 的 任意 顶点 v 都 必然 是 和 s 强 连通 的 ”。 
设 v 为 dfs(G,s) 到 达 的 某 个 顶点 。 那 么 ，G 中 必然 存在 一 条 从 s 到 v 的 路 径 ， 因 此 只 需要 证 
明 G 中 还 存在 一 条 从 v 到 的 路 径 即 可 。 这 也 等 价 于 Be 中 存在 一 条 从 s 到 v 的 路 径 ， 因 此 只 
需要 证 明 在 G* 中 存在 一 条 从 s 到 v 的 路 径 即 可 。 
证 明 的 核心 在 于 , 按照 后 逆序 进行 的 深度 优先 搜索 意味 着 ,在 G" 中 进行 的 深度 优先 搜索 中 ， 
dfs(G,v) 必然 在 dfs(G,s) 之 前 就 已 经 结束 了 ， 这 样 dfs(G,v) 的 调用 就 只 会 出 现 两 种 
情况 : 

口 调用 在 dfs(G,s) 的 调用 之 前 ( 并 且 也 在 dfs(G,s) 的 调用 之 前 结束 ) ; 

口 调用 在 dfs(C,s) 的 调用 之 后 (并且 也 在 dfs(G,s) 的 结束 之 前 结束 ) 。 
第 一 种 情况 是 不 可 能 出 现 的 ， 因 为 在 G* 中 存在 一 条 从 Vv 到 s 的 路 径 ; 而 第 二 种 情况 则 说 明 G* 
中 存在 一 条 从 s 到 v 的 路 径 。 证 毕 。 


图 4.2.16 所 示 为 Kosaraju 算法 处 理 tinyDG.txt 时 的 轨迹 。 在 每 次 dfs() 调用 轨迹 的 右 侧 都 是 有 
向 图 的 一 部 分 ， 顶 点 按照 搜索 结束 的 顺序 排列 。 因 此 ， 从 下 往 上 来 看 左 侧 这 幅 有 向 图 的 反 向 图 得 到 
的 就 是 所 有 顶点 的 逆 后 序 ， 也 就 是 在 原始 的 有 向 图 中 进行 深度 优先 搜索 时 所 有 未 被 标记 的 顶点 被 检 
查 的 顺序 。 你 可 以 从 图 中 看 到 ， 在 第 二 遍 深 度 优先 搜索 中 ， 首 先 调用 的 是 dfs(1) (标记 顶点 1) ， 
然后 调用 的 是 dfs (0) ( 标记 项 点 5、4、3 和 2 ) ,然后 检查 了 顶点 2、4、5 和 3， 再 调用 dfs(11) 
(标记 顶点 11、12、9 和 10) ， 在 检查 了 9、12 和 10 之 后 调用 dfs(b) (标记 顶点 6) ， 最 后 调 
用 dfs(7) 标记 了 顶点 7 和 8。 S88 
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在 反 向 图 中 进行 深度 优先 搜索 (ReversePost) 


按 以 下 顺序 检查 所 有 未 被 标记 的 顶点 
0123456789101112 





供 第 二 次 深度 
优先 搜索 使 用 的 
递 后 序 (从 下 往 上 ) 

















在 原始 的 有 向 图 中 进行 深度 优先 搜索 





按 以 下 顺序 检查 所 有 未 被 标记 的 顶点 
1024531191210678 














SB 图 4.2.16 在 有 向 图 中 寻找 强 连通 分 量 的 Kosaraju 算法 


图 4.2.17 中 所 示 的 是 一 个 更 大 的 示例 ， 也 是 Web 的 有 向 图 模型 的 一 个 非常 小 的 部 分 。 


所 有 强 连 
通 分 量 


42 有 向 图 号 383 











图 4.2.17 这 幅 有 向 图 中 含有 多 少 个 强 连通 分 量 


我 们 在 第 1 章 已 经 介绍 过 kosaraju 算法 并 在 4.1 节 中 再 次 使 用 该 算法 解决 了 无 向 图 的 连通 性 问 
题 。Kosaraju 算法 也 解决 了 有 向 图 中 的 类 似 问题 。 


强 连通 性 。 给 定 一 幅 有 向 图 ， 回 答 “给 定 的 两 个 顶点 是 强 连通 的 吗 ? 这 幅 有 向 图 中 含有 多 少 个 
强 连 通 分 量 ? ”等 类 似 问题 。 


我 们 能 否 用 和 无 向 图 相同 的 效率 解决 有 向 图 的 连通 性 问题 ? 这 个 问题 已 经 被 研究 了 很 长 时 间 了 
(RETarjan 在 20 世纪 70 年 代 未 解决 了 这 个 问题 ) 。 这 样 一 个 简单 的 解决 方法 实在 令 人 惊讶 。 


命题 |。Kosaraju 算法 的 预 处 理 所 需 的 时 间 和 空间 与 了 HE 成 正比 且 支 持 常数 时 间 的 有 向 图 强 连 
通 性 的 查询 。 


证 明 。 该 算法 会 处 理 有 向 图 的 反 向 图 并 进行 两 次 深度 优先 搜索 。 这 3 步 所 需 的 时 间 都 与 V+E 成 
正比 。 反 向 复制 一 幅 有 向 图 所 需 的 空间 与 V+E 成 正比 。 
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4.2.5.4 ”再 谈 可 达 性 

根据 CC 类 我 们 可 以 知道 ， 在 无 向 图 中 如 
果 两 个 顶点 v 和 w 是 连通 的 ， 那么 就 既 存 在 一 
条 从 v 到 w 的 路 径 也 存在 一 条 从 w 到 v 的 路 径 。 
根据 KosarajuCC 类 可 知 ， 在 有 向 图 中 如 果 两 
个 顶点 v 和 w 是 强 连通 的 ， 那么 也 既 存在 一 条 
从 v 到 w 的 路 径 也 存在 ( 另 ) 一 条 从 w 到 v 的 
路 径 。 但 对 于 一 对 非 强 连通 的 顶点 呢 ? 也 许 存 0123456789101l12 

















在 一 条 从 v 到 w 的 路 径 ， 也许 存在 一 条 从 w 到 9%| TTTTT 
v 的 路 径 ， 也 许 两 条 都 不 存在 ， 但 两 条 不 可 能 了 |，， 原始 有 向 图 
都 存在 。 3 |T T T TT 和 中 的 边 (红色 ) 顶 点 12 是 从 
顶点 对 的 可 达 性 。 给 定 一 幅 有 向 图 , 回答 4 |T TTT  T 自 环 (灰色 ) 顶点 6 过 的 
是否 存 在 一 条 从 一 个 给 定 的 顶点 v 到 另 - 个 5|TTTTT 全 | 
给 定 的 顶点 Ww 的 路 径 ? ”等 类 似 问 题 。 a ee ae i 
对 于 无 向 图 , 这 个 问题 等 价 于 连通 性 问题 slrTTrrrrrrr 人 
向 图 , 它 和 强 连 通 性 的 问题 有 很 大 区 别 。 训 | 人 -下 于、 全 光合 外 年 沾 
CC 实现 需要 线性 级 别 的 预 处 理 时 间 才 能 支持 10]T TTTTT HTT 
常数 时 间 的 查询 操作 。 我 们 能 够 在 有 向 图 的 相 。 | 了 i 
应 实现 中 达到 这 样 的 性 能 吗 ? 这 个 看 似 简单 的 
问题 困扰 了 专家 数 十 年 。 为 了 更 好 地 理解 这 个 图 4.2.18 传递 闭 包 〈 另 见 彩 插 ) 
问题 ， 我 们 来 看 看 图 4.2.18。 它 展示 了 下 面 这 
个 基本 的 概念 。 


定义 。 有 向 图 G 的 传递 闭 包 是 由 相同 的 一 组 顶点 组 成 的 另 一 幅 有 向 图 ， 在 传递 闭 包 中 存在 一 条 
从 v 指向 w 的 边 当 且 仅 当 在 G 中 w 是 从 v 可 达 的 。 


根据 约定 ， 每 个 顶点 对 于 自己 都 是 可 达 的 ， 因 此 传递 闭 包 会 含有 7 个 自 环 。 样 图 只 有 13 条 边 ， 
但 它 的 传递 闭 包含 有 可 能 的 169 条 边 中 的 102 条 。 一 般 来 说 ， 一 幅 有 向 图 的 传递 闭 包 中 所 含 的 边 都 
比 原 图 中 多 得 多 ， 一 幅 稀 疏 图 的 传递 闭 包 却 是 一 帐 稠密 图 也 是 很 常见 的 。 例 如 ， 含 有 上 个 顶点 和 睛 
条 边 的 有 向 环 的 传递 闭 包 是 一 幅 含有 忆 条 边 的 有 向 完全 图 。 因 为 传递 闭 包 一 般 都 很 稠密 ， 我 们 通 
常 都 将 它们 表示 为 一 个 布尔 值 矩阵 ， 其 中 v 行 w 列 的 值 为 true 当 且 仅 当 w 是 从 v 可 达 的 。 与 其 明 
确 计算 一 幅 有 向 图 的 传递 闭 包 ， 不 如 使 用 深度 优先 搜索 来 实现 表 4.2.9 中 的 API。 


表 4.2.9 顶点 对 可 达 性 的 API 


一 


public class TransitiveClosure 
TransitiveClosure(Digraph G) 预 处 理 的 构造 函数 
boolean reachableCint v, int w) W 是 从 v 可 达 的 吗 








下 页 框 注 中 的 代码 使 用 DirectedDFS ( 请 见 算法 4.4 ) 简单 明了 地 实现 了 它 。 无 论 对 于 稀 朴 
还 是 稠密 的 图 ， 它 都 是 理想 解决 方案 ,但 它 不 适用 于 在 实际 应 用 中 可 能 遇 到 的 大 型 有 向 图 ， 因 为 


public class TransitiveClosure 


{ 


private DirectedDFS[] all; 
TransitiveClosure(Digraph G) 


t 


all = new DirectedDFS[G.VO]; 
for (int v = 0; v < G.VO; v++) 
all[v] = new DirectedDFS(G, v); 


boolean reachableCint v, int w 
{ return all[v].marked(w); } 


顶点 对 的 可 达 性 


4.2 有 向 图 号 385 


构造 函数 所 需 的 空间 和 天 成 正比 ， 

所 需 的 时 间 和 WV+B) 成 正比 共 
有 下 个 DirectedDFS 对 象 ， 每 个 所 
需 的 空间 都 与 了 成 正比 ( 它们 都 含 
有 大 小 为 了 的 marked[] 数组 并 会 检 
查 已 条 边 来 计算 标记 ) 。 本 质 上 ， 

TransitiveClosure 通过 计算 G 的 传 
递 闭 包 来 支持 常数 时 间 的 查询 一 一 传 
递 闭 包 和 矩阵 中 的 第 v 行 就 是 Transi- 
tiveClosure 类 中 的 DirectedDFS[] 
数组 的 第 v 个 元 素 的 marked[] 数组 。 

我 们 能 够 大 幅度 减少 预 处 理 所 需 的 时 


间 和 空间 同时 又 保证 常数 时 间 的 查询 吗 ?用 远 小 于 平方 级 别 的 空间 支持 常数 级 别 的 查询 的 一 般 解决 
方案 仍然 是 一 个 有 待 解决 的 研究 问题 ， 并 且 有 重要 的 实际 意义 : 例如 ， 除 非 这 个 问题 得 到 解决 ， 对 
于 像 代表 互联 网 这 样 的 巨型 有 向 图 ， 否 则 无 法 有 效 解决 其 中 的 顶点 对 可 达 性 问题 。 


4.2.6 总 结 


在 本 节 中 ， 我 们 介绍 了 有 向 边 和 有 向 图 并 强调 了 有 向 图 处 理 算法 和 无 向 图 处 理 中 相应 算法 的 关 


系 


口 有 向 图 的 术语 ; 


涵盖 了 以 下 几 个 方面 : 


口 有 向 图 的 表示 和 算法 在 本 质 上 和 无 向 图 是 相同 的 ， 但 部 分 有 向 图 问题 更 加 复杂 ; 

口 有 向 环 、 有 向 无 环 图 、 拓 扑 排序 和 优先 级 限制 下 的 调度 问题 ; 

口 有 向 图 的 可 达 性 、 路 径 和 强 连 通 性 。 

表 4.2.10 总 结 了 我 们 已 经 学 过 的 各 种 有 向 图 算法 的 实现 ( 只 有 一 个 算法 不 基于 深度 优先 搜索 )。 
这 些 问题 的 描述 都 很 简单 ， 但 它们 的 解决 方法 有 的 仅仅 简单 改造 了 无 环 图 中 的 相应 问题 的 处 理 算 
法 ， 有 的 却 非常 巧妙 。 我 们 将 在 4.4 节 中 遇 到 加 权 有 向 图 ， 这 些 算法 将 是 学 习 更 加 复杂 的 算法 的 





基础 。 
表 4.2.10 本 节 中 得 到 解决 的 有 向 图 处 理 问题 

间 题 解决 方法 参 阅 
单 点 和 多 点 的 可 达 性 DirectedDFS 算法 44 
单 点 有 向 路 径 DepthFirstDirectedpaths 4.2.32 
单 点 最 短 有 向 路 径 BreadthFirstDirectedpaths 4232 
有 向 环 检测 DirectedCycle 4.2.4.2 框 注 “ 查 找 有 向 环 ” 

4.2.4.2 框 注 “有 向 图 中 基于 深度 优先 搜索 

深度 优先 的 顶点 排序 DepthFirstOrder 的 顶点 排序 " 
优先 级 限制 下 的 调度 问题 Topological 算法 45 
拓扑 排序 Topological 算法 45 
强 连 通 性 KosarajuSCC 算法 4.6 
顶点 对 的 可 达 性 TransitiveClosure 4.2.5.4 节 
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图 答 缀 


间 自 环 是 一 个 环 吗 ? 








595, 








4.2.1 


4.2.2 


4.2.3 


4.2.4 


4.2.5 
4.2.6 
4.2.7 
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4.2.8 
4.2.9 


答 是 的 ,但 没有 自 环 的 顶点 对 于 自己 也 是 可 达 的 


力 练 与 


一 幅 含 有 个 顶点 且 没 有 平行 边 的 有 向 图 中 最 多 可 能 含有 多 少 条 边 ? 一 幅 含 有 个 顶点 且 没 有 孤 
立 顶 点 的 有 向 图 中 最 少 需 要 多 少 条 边 ? 

按照 正文 中 示意 图 的 样式 ( 请 见 图 4.1.10 ) 画 出 Digraph tinyDGex2. txt 

的 构造 函数 在 处 理 图 4.2.19 的 tinyDGex2.txt 时 构造 的 邻 
接 表 。 

为 Digraph 添加 一 个 构造 函数 ， 它 接受 一 幅 有 向 图 6 然后 
创建 并 初始 化 这 幅 图 的 一 个 副本 。5 的 用 例 的 对 它 作 出 的 
任何 改动 都 不 应 该 影响 到 它 的 副本 

为 Digraph 添加 一 个 方法 hasEdge() ， 它 接受 两 个 整 型 参 
数 v 和 w。 如 果 图 含有 边 v 一 w， 方 法 返回 true， 否 则 返 
回 false。 

修改 Digraph， 不 允许 存在 平行 边 和 自 环 

为 Digraph 编写 一 个 测试 用 例 。 

顶点 的 入 度 为 指向 该 顶点 的 边 的 总 数 。 顶 点 的 出 度 为 由 该 
顶点 指出 的 边 的 总 数 。 从 出 度 为 0 的 顶点 是 不 可 能 达到 任 图 4.2.19 

何 顶 点 的 ， 这 种 顶点 叫做 终点 ; 人 度 为 0 的 项 点 是 不 可 能 

从 任何 项 点 到 达 的 ， 所 以 叫做 一 幅 允 许 出 现 自 环 且 每 个 顶点 的 出 度 均 为 1 的 有 向 图 叫做 映 
射 ( 从 0 到 V1 之 间 的 整数 到 它们 自身 的 函数 ) 。 编 写 一 段 程序 Degreesjava， 实 现下 面 的 APL， 
如 表 4.2.11 所 示 。 















表 4.2.11 
public class Degrees 

Degrees(Digraph ©) 构造 函数 

int indegree(int v) v 的 入 度 

int outdegree(int v) v 的 出 度 
Iterable<Integer> sources() 所 有 起 点 的 集合 
Iterable<Integer> sinksO 所 有 终点 的 集合 
boolean isMap() 6 是 一 幅 映 射 吗 


画 出 所 有 含有 2、3、4 和 5 个 顶点 的 非 同 构 有 向 无 环 图 。 ( 参考 练习 4.1.28 ) 
编写 一 个 方法 ， 检 查 一 幅 有 向 无 环 图 的 顶点 的 给 定 排列 是 否 就 是 该 图 项 点 的 拓扑 排序 。 


4.2.10 ”给 定 一 幅 有 向 无 环 图 ， 是 否 存在 一 种 无 法 用 基于 深度 优先 搜索 算法 得 到 的 顶点 的 拓扑 排序 ? 顶 


点 的 相 邻 关系 不 限 。 证 明 你 的 结论 。 


4.2.11 
4.2.12 
4.2.13 


4.2.14 
4.2.15 
4.2.16 
4.2.17 
4.2.18 


4.2 有 向 图 号 387 


描述 一 组 稀疏 有 向 图 ， 其 含有 的 有 向 环 的 个 数 随 着 顶点 增加 而 呈 指 数 级 增长 。 
一 幅 含 有 VV 个 顶点 和 大 1 条 边 且 为 一 条 简单 路 径 的 有 向 图 的 传递 团 包 中 含有 多 少 条 边 ? 

给 出 这 幅 含有 10 个 项 点 和 以 下 边 的 有 向 图 的 传递 闭 包 : 

3 一 7 1 一 4 7 一 8 0 一 5 5 一 2 3 一 8 2 一 9 0 一 6 4 一 9 2 一 6 6 一 4 

证 明 G 和 G* 中 的 强 连通 分 量 是 相同 的 。 

一 幅 有 向 无 环 图 的 强 连通 分 量 是 哪些 ? 

用 Kosaraju 算法 处 理 一 幅 有 向 无 环 图 的 结果 是 什么 ? 

真 假 判断 :一 幅 有 向 图 的 反 向 图 的 顶点 的 后 逆序 排列 和 该 有 向 图 的 顶点 的 后 序 排列 相同 。 
使 用 1.4 节 中 的 内 存 使 用 模型 评估 含有 个 顶点 和 条 边 的 Digraph 的 内 存 使 用 情况 。 


图 提高 三 


4.2.19 


4.2.20 


4.2.21 


4.2.22 


4.2.23 


4.2.24 


4.2.25 


4.2.26 


拓扑 排序 与 广度 优先 搜索 。 解 释 为 何如 下 算法 无 法 得 到 一 组 拓扑 排序 : 运行 广度 优先 搜索 并 按 
照 所 有 顶点 和 起 点 的 距离 标记 它们 。 

有 向 欧 拉 环 。 欧 拉 环 是 一 条 每 条 边 只 出 现 一 次 的 有 向 环 。 编 写 一 个 程序 Euler 来 找 出 有 向 图 中 
的 欧 拉 环 或 者 说 明 它 不 存在 。 提 示 : 当 且 仅 当 有 向 图 G 是 连通 的 且 每 个 顶点 的 出 度 和 人 度 相 同 
时 G 含有 一 条 有 向 欧 拉 环 。 

有 向 无 环 图 中 的 LCA。 给 定 一 幅 有 向 无 环 图 和 两 个 顶点 v 和 w， 找 出 v 和 w 的 LCA (Lowest 
Common Ancestor， 最 近 共 同 祖先 ) 。 LCA 的 计算 在 实现 编程 语言 的 多 重 继承 、 分 析 家 谱 数 据 ( 找 
出 家 族 中 近亲 繁衍 的 程度 ) 和 其 他 一 些 应 用 中 很 有 用 。 提 示 : 将 有 向 无 环 图 中 的 顶点 v 的 高 度 
定义 为 从 根 结 点 到 v 的 最 长 路 径 。 在 所 有 v 和 w 的 共同 祖先 中 ， 高 度 最 大 者 就 是 v 和 w 的 最 近 
共同 祖先 。 

最 短 先导 路 径 。 给 定 一 幅 有 向 无 环 图 和 两 个 顶点 v 和 w， 找 出 v 和 w 之 间 的 最 短 先导 路 径 。 设 v 
和 w 的 一 个 共同 的 祖先 顶点 为 x， 先 导 路 径 为 v 到 x 的 最 短路 径 和 w 到 x 的 最 短路 径 。v 和 w 之 
间 的 最 短 先导 路 径 是 所 有 先导 路 径 中 的 最 短 者 。 热 身 ; 构造 一 幅 有 向 无 环 图 ， 使 得 最 短 先导 路 
径 到 达 的 祖先 顶点 x 不 是 v 和 w 的 最 近 共 同 祖先 。 提 示 : 进行 两 次 广度 优先 搜索 , 一 次 从 v 开始 ， 
一 次 从 w 开 始 。 

强 连 通 分 量 。 设 计 一 种 线性 时 间 的 算法 来 计算 给 定 顶 点 v 所 在 的 强 连通 分 量 。 在 这 个 算法 的 基 
础 上 设计 一 种 平方 时 间 的 算法 来 计算 有 向 图 的 所 有 强 连 通 分 量 。 

有 向 无 环 图 中 的 汉密尔顿 路 径 。 设 计 一 种 线性 时 间 的 算法 来 判定 给 定 的 有 向 无 环 图 中 是 否 存在 
一 条 能 够 正好 只 访问 每 个 顶点 一 次 的 有 向 路 径 。 

答案 : 计算 给 定 图 的 拓扑 排序 并 顺序 检查 拓扑 排序 中 每 一 对 相 邻 的 顶点 之 间 是 否 存在 一 条 边 。 
唯一 的 拓扑 排序 。 设 计 一 个 算法 来 判定 一 幅 有 向 图 的 拓扑 排序 是 否 是 唯一 的 。 提 示 : 当 且 仅 当 
拓扑 排序 中 每 一 对 相 邻 的 顶点 之 间 都 存在 一 条 有 向 边 ( 即 有 向 图 含有 一 条 汉密尔顿 路 径 ) 时 它 
的 拓扑 排序 才 是 唯一 的 。 如 果 一 幅 有 向 图 的 拓扑 排序 不 唯一 ， 另 一 种 拓扑 排序 可 以 由 交换 拓扑 
排序 中 的 某 一 对 相 邻 的 顶点 得 到 。 

2- 可 满足 性 。 给 定 一 个 由 MM 个 子 句 和 NN 个 变量 的 组 成 的 以 合 取 范 式 形式 给 出 的 布尔 馆 辑 命题 ， 
每 个 子 句 都 正好 含有 两 个 变量 ， 找 到 一 组 使 布尔 表达 式 为 真 的 变量 赋值 ( 如 果 存在 ) 。 提 示 : 
构造 一 幅 含 有 2N 个 项 点 的 昔 沁 有 向 图 (implication graph ) ( 每 个 变量 和 它 的 反 都 各 有 一 个 顶点 ) 。 
对 于 每 个 子 句 x+ty， 添 加 一 条 从 Y' 到 x 的 边 和 一 条 从 x' 到 y 的 边 。 要 满足 子 句 x+ty， 必 有 (i) 
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4.2.27 


4.2.28 
4.2.29 


4.2.30 
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4.2.31 
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如 果 y 是 假 那么 x 为 真 ,或 者 (ii) 如 果 x 是 假 那么 y 为 真 。 说 明 : 当 且 仅 当 没有 任何 项 点 x 和 
它 的 反 x" 存 在 于 同一 个 强 连通 分 量 中 时 这 个 表达 式 才能 被 满足 。 另 外 ， 核 心 有 向 无 环 图 (将 每 
个 强 连通 分 量 看 作 一 个 顶点 ) 的 拓扑 排序 也 能 够 产生 一 组 可 以 满足 该 表达 式 的 变量 赋值 。 

有 向 图 的 枚 举 。 证 明 所 有 不 同 的 含有 站 个 顶点 且 不 含 平行 边 的 有 向 图 的 总 数 为 2 个 。 (含有 六 
个 顶点 和 EE 条 边 的 不 同 有 向 图 有 多 少 个 ” ) 痕 设 宇宙 中 每 个 电子 在 一 纳 秒 内 能 够 检查 一 幅 有 向 图 ， 

宇宙 中 的 电子 总 数 不 超 过 10” 个 ,宇宙 的 寿命 小 于 10” 年。 对 于 所 有 含有 20 个 顶点 的 不 同 有 向 
图 ， 计算 机 最 多 能 够 检查 它们 的 百 分 之 几 ? 

有 向 无 环 图 的 枚 举 。 给 出 一 个 公式 ， 计 算 含有 VV 个 顶点 和 条 边 的 所 有 有 向 无 环 图 的 数量 。 

算术 表达 式 。 编 写 一 个 类 来 计算 由 有 向 无 环 图 表示 的 算术 表达 式 。 使 用 一 个 由 顶点 索引 的 数组 
来 保存 每 个 顶点 所 对 应 的 值 。 假 设 叶子 结 点 中 的 值 是 常数 。 描 述 一 组 算术 表达 式 ， 使 得 它 所 对 

应 的 表达 式 树 ( expression tree ) 的 大 小 是 相应 的 有 向 无 环 图 的 大 小 的 指数 级 别 。 ( 因此 程序 处 

理 有 向 无 环 图 所 需 的 时 间 将 和 处 理 表达 式 树 所 需 的 时 间 的 对 数 成 正比 。) 

基于 队列 的 拓扑 排序 。 实 现 一 种 拓扑 排序 ， 使 用 由 顶点 索引 的 数组 来 保存 每 个 顶点 的 人 度 。 遍 历 
- 遍 所 有 边 并 使 用 练习 4.2.7 给 出 的 Degrees 类 来 初始 化 数组 以 及 一 条 含有 所 有 顶点 的 队列 。 然 

后 ,重复 以 下 操作 直到 起 点 队列 
口 从 队列 中 删 去 一 个 顶点 并 将 其 标记 ; 

口 遍历 由 被 删除 顶点 指出 的 所 有 边 ， 将 所 有 被 指向 的 顶点 的 人 度 减 一 ; 

口 如 果 顶 点 的 入 度 变 为 0， 将 它 插入 顶点 队列 。 

有 向 欧 拉 图 。 修 改 你 为 4.1.37 给 出 的 解答 ， 为 平面 图 设计 一 份 API 名 为 EulideanDigraph， 这 
样 你 就 能 够 处 理 用 图 形 表示 的 图 了 
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随机 有 向 图 ,编写 一 个 程序 ErdosRenyiDigraph, 从 命令 行 接受 整数 V 和 ,随机 生成 E 对 0 到 上 1 

之 间 的 整数 来 构造 一 幅 有 向 图 。 注 意 : 生成 器 可 能 会 产生 自 环 和 平行 边 。 

随机 简单 有 向 图 。 编 写 一 个 程序 RandomSimpleDigraph， 从 命令 行 接受 整数 广 和 EE， 用 均等 的 

几率 生成 含有 VV 个 顶点 和 EE 条 边 的 所 有 可 能 的 简单 有 向 图 。 

随机 稀世 有 向 图 。 将 你 为 练习 4.1.41 给 出 的 解答 修改 为 RandomSparseDigraph， 根 据 精心 选择 

的 一 组 VY 和 EE 的 值 生 成 随机 的 稀疏 有 向 图 ， 使 得 我 们 可 以 用 它 进行 有 意义 的 经 验 性 测试 。 

随机 欧 拉 图 。 将 你 为 练习 4.1.42 给 出 的 解答 修改 为 EulideanDigraph 的 用 例 RandomEulideanDigraph， 

随机 指定 每 条 边 的 方向 。 

随机 网 格 图 。 将 你 为 练习 4.1.43 给 出 的 解答 修改 为 EulideanDigraph 的 用 例 RandomGridDigraph， 

随机 指定 每 条 边 的 方向 。 

真实 世界 中 的 有 向 图 。 从 互联 网 上 找 出 一 幅 巨 型 有 向 图 一 一 可 以 是 某 个 在 线 商业 系统 的 交易 图 ， 

或 是 由 网 页 和 链接 得 到 的 有 向 图 。 编 写 一 段 程序 RandomRea1Digraph， 从 这 些 顶 点 构成 的 子 图 

中 随机 选取 上 个 顶点 ， 然 后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 已 条 边 来 构造 一 幅 图 。 

真实 世界 中 的 有 向 无 环 图 。 从 互联 网 上 找 出 一 幅 巨 型 有 向 无 环 图 一 一 可 以 是 大 型 软件 系统 中 的 

类 依赖 关系 ， 或 是 大 型 文件 系统 中 的 目录 结构 。 编 写 一 段 程序 RandomRea1DAG， 从 这 些 顶 点 构 

成 的 子 图 中 随机 选取 VY 个 顶点 ,然后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 条 边 来 构造 一 幅 图 。 
测试 所 有 的 算法 并 研究 所 有 图 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 
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段 程序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模 
型 进行 实验 。 你 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结果 以 及 由 
此 得 出 的 任何 结论 。 
4.2.39 可 达 性 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判断 从 一 个 随机 选 定 的 顶点 可 以 到 达 的 
顶点 数量 的 平均 值 。 
4.2.40 深度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判断 Depth- 
FirstDirectedPaths 在 两 个 随机 选 定 的 顶点 之 间 找到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 
长 度 。 
4.2.41 广度 优先 搜索 中 的 路 径 长 度 。 对 于 各 种 有 向 图 的 模型 ， 运 行 实验 并 根据 经 验 判断 Breadth- 
FirstDirectedPaths 在 两 个 随机 选 定 的 项 点 之 间 找到 一 条 路 径 的 概率 并 计算 找到 的 路 径 的 平均 
长 度 。 
4.2.42 强 连 通 分 量 。 运 行 实验 随机 生成 大 量 有 向 图 并 画 出 柱状 图 ,根据 经 验 判断 各 种 类 型 的 随机 有 向 
图 中 强 连通 分 量 的 数量 的 分 布 情况 。 602 
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4.3 


最 小 生成 树 


加 权 图 是 一 种 为 每 条 边关 联 一 个 权 值 或 是 成 本 的 图 模型 。 这 种 图 能 够 自然 地 表示 许多 应 用 。 在 
一 幅 航 空 图 中 ， 边 表示 航线 ， 权 值 则 可 以 表示 距离 或 是 费用 。 在 一 幅 电 路 图 中 ， 边 表示 导线 ， 权 值 


tinyENG, txt 则 可 能 表示 导线 的 长 度 即 成 本 ,或 是 信号 通过 这 条 线 
Te 路 所 需 的 时 间 。 在 这 些 情形 中 ， 最 令 人 感 兴趣 的 自然 

45 0.35 最 小 生成 树 是 将 成 本 最 小 化 。 在 本 节 中 ， 我 们 将 学 习 加 权 无 向 图 
5 7 0.28 2 的 边 (时 色 ) 模型 并 用 算法 回答 下 面 这 个 问题 。 

07 0.16 © 最 小 生成 树 。 给 定 一 幅 加 权 无 向 图 ， 找 到 它 的 一 

© 
A 棵 最 小 生成 树 。 

23 0.17 

17 0.19 (0 

ts 作 / © 定义 。 图 的 生成 树 是 它 的 一 棵 含有 其 所 有 项 点 的 

无 环 连通 子 图 。 一 幅 加 权 无 向 图 的 最 小 生成 树 


62 0.40 非 最 小 生成 (MST ) 是 它 的 一 棵 权 值 ( 树 中 所 有 边 的 权 值 之 和 ) 


图 4.3.1 


一 过 (大 @) 最 小 的 生成 树 。 (请 见 图 43.1) 。 


在 本 节 中 ,我 们 会 学 习 计算 最 小 生成 树 的 两 种 经 


一 幅 加 权 无 向 图 和 它 的 最 小 生成 树 
典 算法 : Prim 算法 和 Kruskal 算法 。 这 些 算法 理解 容易 ， 


实现 简单 。 它 们 是 本 书 中 最 古老 和 最 知名 的 算法 之 一 ， 但 它们 也 根据 现代 数据 结构 得 到 了 改进 。 因 
为 最 小 生成 树 的 重要 应 用 领域 太 多 ， 对 解决 这 个 问题 的 算法 的 研究 至 少 从 20 世纪 20 年 代 在 设计 电 
力 分 配 网 络 时 就 开始 了 。 现在 , 最 小 生成 树 算法 在 设计 各 种 类 型 的 网 络 ( 通信 、 电子、 水 利 、 计算机 、 
公路 、 铁 路 、 航 空 等 ) 以 及 自然 界 中 的 生物 、 化 学 和 物理 网 络 等 各 个 领域 的 研究 中 都 起 到 了 重要 的 
作用 ， 请 见 表 4.3.1。 


表 4.3.1 最 小 生成 树 的 典型 应 用 





应 用 领域 项 点 边 

电路 元 器 件 导线 
航空 机 场 航线 
电力 分 配 电站 输电 线 
图 像 分 析 面部 容 摇 相似 关系 


一 些 约 定 
在 计算 最 小 生成 树 的 过 程 中 可 能 会 出 现 各 种 特殊 情况 。 虽 然 它 们 大 多 数 都 很 容易 处 理 ， 但 为 了 
行文 的 流畅 ， 我 们 约定 如 下 。 


口 


口 


只 考虑 连通 图 。 我 们 对 生成 树 的 定义 意味 着 最 小 生成 树 只 可 能 存在 于 连通 图 中 ,请 见 图 
4.3.2a。 从 另 一 个 角度 来 说 ， 请 回想 4.1 节 所 述 的 树 的 基本 性 质 ， 我 们 要 找 的 就 是 一 个 由 天 1 
条 边 组 成 的 集合 , 它们 既 连 通 了 图 中 的 所 有 顶点 而 权 值 之 和 又 最 小 。 如 果 一 幅 图 是 非 连通 的 ， 
我 们 只 能 使 用 这 个 算法 来 计算 它 的 所 有 连通 分 量 的 最 小 生成 树 ， 合 并 在 一 起 称 其 为 最 小 生成 
森林 ( 请 见 练习 4.3.22 ) 。 

边 的 权重 不 一 定 表示 距离 。 有 时 你 对 几何 学 的 直觉 能 够 帮助 你 理解 算法 ,因此 在 示例 中 ， 顶 
点 都 表示 是 平面 上 的 点 ,而 权重 都 表示 是 两 点 之 间 的 距离 ， 比 如 图 4.3.2b。 但 需要 注意 的 是 ， 
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权重 也 可 能 表示 时 间 、 烛 用 或 是 其 他 完全 不 同 的 。。 (e) 非 通 的 无 图 中 不 存在 最小 生 成 本 
变量 ， 而 且 也 完全 不 一 定 会 和 距离 成 正比 。 


口 边 的 权重 可 能 是 0 或 者 负数 。 如 果 边 的 权重 都 是 @) 妇 了 
正 的 ， 将 最 小 生成 树 定义 为 连接 所 有 顶点 且 总 权 GD 3 "5 
重 最 小 的 子 图 就 足够 了 ， 这 样 的 一 幅 子 图 必然 是 6~ 16 0.10 

02 0.22 


一 棵 生成 树 。 定 义 中 的 生成 树 条 件 说 明 图 也 可 以 十 计 这 这 从 

含有 权重 为 0 或 是 负数 的 边 ， 请 见 图 4.3.2c。 量 的 最 小 生成 树 
口 所 有 边 的 权重 都 各 不 相同 。 如 果 不 同 边 的 权重 可 

以 相同 ， 最 小 生成 树 就 不 一 定 唯一 了 ( 请 见 练习 。。。 权重 不 “ 定 和 有 离 成 正比 

4.3.2) 。 存 在 多 棵 最 小 生成 树 的 可 能 性 会 使 部 分 46 0.62 


算法 的 证 明 变 得 更 加 复杂 ， 因 此 我 们 在 表示 中 排 © CO 15 0.02 
除了 这 种 可 能 性 。 事 实 上 这 个 假设 并 没有 限制 算 (S37) 
法 的 适用 范围 ， 因 为 不 做 修改 它们 也 能 处 理 存在 @ 9 0.22 


等 值 权重 的 情况 ， 请 见 图 4.3.2d 。 
总 之 ,在 学 习 最 小 生成 树 相关 算法 的 过 程 中 我 们 假设 
任务 的 目标 是 在 一 幅 加 权 ( 但 权 值 各 不 相同 的 ) 连通 无 向 (e) 权重 可 能 是 0 或 者 负数 


图 中 找到 它 的 最 小 生成 树 。 
GO © G) 15 0.02 
4.3.1 原理 sD) 1 
首先 ， 我 们 回顾 一 下 4.1 节 中 给 出 的 树 的 两 个 最 重要 © © 22 0: 
的 性 质 ， 另 见 图 4.3.3: 站 于 《有 
口 用 一 条 边 连接 桂 中 的 任意 两 个 顶点 都 会 产生 一个 Wakesata 
新 的 环 ; 那 最 小 生成 树 可 能 不 唯一 
口 从 树 中 出 去 一 条 边 将 会 得 到 两 棵 独立 的 树 。 1 时 
这 两 条 性 质 是 证 明 最 小 生成 树 的 另 一 条 基本 性 质 的 2 4 1.00 
基础 ， 而 由 这 条 基本 性 质 就 能 够 得 到 本 节 中 的 最 小 生成 村 Go 3 4 0.50 
算法 。 (2) 1 2 1.00 
4.3.1.1 切 分 定理 2 a 
我 们 称 之 为 切 分 定理 的 这 条 性 质 将 会 把 加 权 图 中 的 Cr 3 4 0.50 
所 有 项 点 分 为 两 个 集合 、 检 查 横 跨 两 个 集合 的 所 有 边 并 识 。 图 432 计算 最 小 生成 树 时 可 能 浊 到 
别 哪 条 边 应 属于 图 的 最 小 生成 树 。 的 各 种 特殊 情况 


定义 。 图 的 一 种 切 分 是 将 图 的 所 有 顶点 分 为 两 个 非 空 且 不 重复 的 两 个 集合 。 横 切 边 是 一 条 连接 
两 个 属于 不 同 集合 的 顶点 的 边 。 


通常 ,我 们 通过 指定 一 个 顶点 集 并 隐 式 地 认为 它 的 补 集 为 男 一 个 顶点 集 来 指定 一 个 切 分 。 这样， 
一 条 横 切 边 就 是 连接 该 集合 的 一 个 顶点 和 不 在 该 集合 中 的 另 一 个 顶点 的 一 条 边 。 如 图 4.3.4 所 示 ， 
我 们 将 切 分 中 一 个 集合 的 顶点 都 画 为 了 灰色 ， 另 一 个 集合 的 顶点 则 为 白色 。 
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添 中 一 条 边 会 
创建 一 个 环 
将 灰色 和 白色 项 点 区 别 
开 来 的 横 切 边 为 红色 
刷 除 一 条 边 会 权重 最 小 的 横 切 边 肯 
将 树 一 分 为 二 定 属于 最 小 生成 树 


图 4.3.3 树 的 基本 性 质 图 4.3.4 切 分 定理 ( 另 见 彩 插 ) ”图 4.3.5 产生 了 两 条 属于 最 小 生成 
树 的 横 切 边 的 一 种 切 分 


命题 J( 切 分 定理 ) 。 在 一 幅 加 权 图 中 ， 给 定 任意 的 切 分 ， 它 的 横 切 边 中 的 权重 最 小 者 必然 属 
于 图 的 最 小 生成 树 。 


证 阴 。 另 e 为 权重 最 小 的 横 切 边 ，7 为 图 的 最 小 生成 树 。 我 们 采用 反 证 法 : 假设 了 不 包含 e。 那 
么 如 果 将 e 加 入 7， 得 到 的 图 必然 含有 一 条 经 过 e 的 环 ， 且 这 个 环 至 少 含有 另 一 条 横 切 边 
设 为 /, /的 权重 必然 大 于 e( 因 为 e 的 权重 是 最 小 的 且 图 中 所 有 边 的 权重 均 不 同 ) 。 那 么 我 们 
删 掉 J 而 保留 e 就 可 以 得 到 一 棵 权重 更 小 的 生成 桂 。 这 和 我 们 的 假设 了 矛盾 。 





在 假设 所 有 的 边 的 权重 均 不 相同 的 前 提 下 ， 每 幅 连 通 图 都 只 有 一 棵 唯一 的 最 小 生成 树 ( 请 见 
练习 4.3.3 ) ， 切 分 定理 也 表明 了 对 于 每 一 种 切 分 ， 权 重 最 小 的 横 切 边 必然 属于 最 小 生成 树 。 

图 4.3.4 是 切 分 定理 的 示意 图 。 注 意 ， 权 重 最 小 的 横 切 边 并 不 一 定 是 所 有 横 切 边 中 唯一 属于 图 
的 最 小 生成 树 的 边 。 实 际 上 ,许多 切 分 都 会 产生 若干 条 属于 最 小 生成 树 的 横 切 边 ， 如 图 4.3.5 所 示 。 
4.3.1.2 贪心 算法 

切 分 定理 是 解决 最 小 生成 树 问 题 的 所 有 算法 的 基础 。 更 确切 的 说 ， 这 些 算法 都 是 一 种 贪心 算法 
的 特殊 情况 : 使 用 切 分 定理 找到 最 小 生成 树 的 一 条 边 ， 不 断 重 复 直到 找到 最 小 生成 树 的 所 有 边 。 这 
些 算法 相互 之 间 的 不 同 之 处 在 于 保存 切 分 和 判定 权重 最 小 的 横 切 边 的 方式 ， 但 它们 都 是 以 下 性 质 的 
特殊 情况 。 


命题 K〈 最 小 生成 树 的 贪心 算法 ) 。 下 面 这 种 方法 会 将 含有 严 个 顶 志 的 任意 加 权 连 通 图 中 属于 最 
小 生成 树 的 边 标 记 为 黑色 : 初始 状态 下 所 有 边 均 为 灰色 ， 找 到 一 种 切 分 ， 它 产生 的 模 切 边 均 不 为 
黑色 。 将 它 权重 最 小 的 横 切 边 标 记 为 黑色 。 反 复 ， 直 到 标记 了 天 1 条 黑色 边 为 止 。 


证 明 。 为 了 简单 ， 我 们 假设 所 有 边 的 权重 均 不 相同 尽管 没 有 这 个 假设 该 命题 同样 成 立 ( 请 见 
练习 4.3.5) 。 根 据 切 分 定理 ， 所 有 被 标记 为 黑色 的 边 均 属于 最 小 生成 树 。 如 果 黑 色 边 的 数量 小 
于 天 1， 必 然 还 存在 不 会 产生 黑色 横 切 边 的 切 分 《因为 我 们 假设 图 是 连通 的 ) 。 只 要 找到 了 大 1 
条 黑色 的 边 ， 这 些 边 所 组 成 的 就 是 一 棵 最 小 生成 树 。 
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小 生成 树 中 的 边 


O 切 分 生成 的 权 


图 4.3.6 贪心 最 小 生成 树 算法 
( 另 见 彩 插 ) 
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图 4.3.6 所 示 的 是 这 个 贪心 算法 运行 的 典型 轨迹 。 每 一 幅 
图 表现 的 都 是 一 次 切 分 ， 其 中 算法 识别 了 一 条 权重 最 小 的 横 切 
边 (红色 加 粗 ) 并 将 它 加 入 最 小 生成 树 之 中 。 


4.3.2 ”加 权 无 向 图 的 数据 类 型 
加 权 无 向 图 应 该 如 何 表示 ? 也 许 最 简单 的 方法 就 是 扩展 
4.1 节 中 对 无 向 图 的 表示 方法 ， 在 邻接 矩阵 的 表示 中 ， 可 以 用 
边 的 权重 代 蔡 布尔 值 来 作为 矩阵 的 元 素 ， 在 邻接 表 的 表示 中 
可 以 在 链表 的 结 点 中 增加 一 个 权重 域 。 ( 和 以 前 一 样 ， 我 们 把 


重点 放 在 稀疏 | 


上 ， 将 邻接 和 矩阵 的 表示 方法 留 作 练习 。 ) 这 种 


经 典 的 方法 很 有 吸引 力 ， 但 我 们 会 使 用 另外 一 种 并 不 太 复 杂 的 


表示 方式 。 





-个 更 加 通用 的 API 来 处 理 Edge 对 象 ， 能 


够 使 程序 适用 于 更 加 常见 的 场景 ， 请 见 表 4.3.2。 


public class 


表 4.3.2 ”加权 边 的 API 


Edge implements Comparable<Edge> 





double 
int 
int 


EdgeCint v, int w， 
double weight) 


weight() 
eitherO 
other(Cint v) 


Edge that) 


用 于 初始 化 的 构造 
函数 

边 的 权重 

边 两 端的 顶点 之 

另 一 个 顶点 


将 这 条 边 e 与 that 
比较 


对 象 的 字符 申 表示 


访问 边 的 端点 的 either() 和 other() 方法 乍 一 看 会 有 些 
奇怪 一 一 在 看 到 调用 它们 的 代码 时 就 会 清楚 了 为 什么 会 有 这 样 
的 需要 了 。Edge 的 实现 请 见 框 注 “ 带 权重 的 边 的 数据 类 型 ”， 
它 是 EdgeWeightedGraph 的 API 的 基础 。 加 权 无 向 图 的 实现 


很 自然 地 使 用 了 Edge 对 象 ， 请 见 表 4.3.3。 


public class 


表 4.3.3 加 权 无 向 图 的 API 


EdgeweightedGraph 





int 
int 

void 
Iterable<Edge> 
Iterable<Edge> 


EdgeweightedGraphCint V) 


EdgeweightedGraph(In in 
vO 

EO 

addEdge(Edge e) 
adjCint v) 

edgesO) 





创建 一 由 含有 V 个 顶 
点 的 空 图 
从 输入 流 中 读 取 图 
图 的 顶点 数 

图 的 边 数 

向 图 中 添加 一 条 边 e 
和 v 相关 联 的 所 有 边 
图 的 所 有 边 605 
对 象 的 字符 中 表示 
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这 份 APL 和 Graph 的 API ( 请 见 表 4.1.1) 
非常 相似 。 两 者 的 两 个 重要 的 不 同 之 处 在 TE Iterable<Edge> edgesQ) 


于 本 节 API 的 基础 是 Edge 且 这 加 了 一 个 Begg one gape 0; 
edges() 方法 ( 请 见 框 注 “ 返 回 加 权 无 向 图 for (Edge e : adj[v]) 

中 的 所 有 边 ”) 来 遍历 图 的 所 有 边 ( 忽略 自 if (e.other(v) > v) b.add(e); 
环 ) 。 后 面 框 注 “ 加 权 无 向 图 的 数据 类 型 " 下 

中 EdgeweightedGraph 的 实现 的 其 他 部 分 与 

4.1 节 的 无 环 图 的 实现 基本 相同 ， 只 是 在 邻接 返回 加 权 无 向 图 中 的 所 有 边 


表 中 用 Edge 对 象 替代 了 Graph 中 的 整数 来 作为 链表 的 结 点 。 

图 4.3.7 显示 的 是 在 处 理 样 例文 件 tinyEWG.txt 时 用 EdgeweightedGraph 对 象 表示 的 加 权 无 向 
图 。 它 按照 1.3 节 中 的 标准 实现 显示 了 链表 中 每 个 Bag 对 象 的 内 容 。 为 了 整洁 ， 用 一 对 int 值 和 一 
个 double 值 表示 每 个 Edge 对 象 。 实 际 的 数据 结构 是 一 个 链表 ， 其 中 每 个 元 素 都 是 一 个 指向 含有 
这 些 值 的 对 象 的 指针 。 需 要 特别 注意 的 是 ， 虽然 每 个 Edge 对 象 都 有 两 个 引用 ( 每 个 顶点 的 链表 中 
都 有 一 个 ) ， 但 图 中 的 每 条 边 所 对 应 的 Edge 对 象 只 有 一 个 。 在 示意 图 中 ， 边 在 链表 中 的 出 现 顺序 
和 处 理 它们 的 顺序 是 相反 的 ， 这 是 由 于 标准 链表 实现 和 栈 的 相似 性 所 导致 的 。 和 Graph 一 样 ， 使 用 
Bag 对 象 可 以 保证 用 例 的 代码 和 链表 中 对 象 的 顺序 是 无 关 的 。 


tinyEG. txt ~[eTol.ss |—[olz2T.26}—[ol4 L381}[ol7T.16 wy 
2 adj[] ~EBLa tH Tr 

~[efz[L% [2 171.34 1 112 1. [ol21.26 1 [2 L3117 
[al6l.92 -D3 29 [2 T3117 
~[elsL.%3} [ofl [417T.37 1-[4ls].3s 
~hlsLx HsI7l2s} [slsT.3s Nh 
6[4[.93 上 [6[o[.58 上 [3[6[.52 上 [6[2[.40 
>~[ET7TL34-T7La 上 [ol7[LaH[sT7L2s-[5TL7L28 
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图 4.3.7 ”加权 无 向 图 的 表示 


带 权重 的 边 的 数据 类 型 


public class Edge implements Comparable<Edge> 
{ 





private final int vi; // 顶点 之 一 
private final int w; // 另 一 个 顶点 
private final double weight; // 边 的 权重 


public EdgeCint v, int w, double weight) 
{ 
this.v = Vv; 
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this.w = ws; 
this.weight = weight; 


public double weight() 
{ return weight; } 


public int either() 
{ return vi } 


public int other(int vertex) 


if (vertex == Vv) return w; 
else if (vertex == mW return 






lse throw new RuntimeException( "Inconsistent edge” ); 
和 

public int compareTo(Edge that) 

{ 


if (this.weight() < that.weight()) return -1; 


else if (this.weight() > that.weight()) return +1 
else return 


public String toString() 
{ return String.format( “%d-%d %.2f" , v, w, weight); } 


} 
该 数据 结构 提供 了 either() 和 other() 两 个 方法 。 在 已 知 一 个 顶点 v 时， 用例 可 以 使 用 other(v) 


来 得 到 边 的 另 一 个 顶点 。 当 两 个 顶点 都 是 未 知 的 时 候 ， 用 例 可 以 使 用 惯用 代码 vce.eitherC) ，wee。 
other(v); 来 访问 一 个 Edge 对 象 e 的 两 个 顶点 。 




















610 
加 权 无 向 图 的 数据 类 型 

public class Edgeweightedcraph 
{ 

private final int V; // 顶点 总 数 

vate int E // 边 的 总 数 
private Bag<Edge>[] adj // 邻接 表 
pub1ir EdgeWeightedoraph (int V) 


adj = (Bag<Edge>[]) new BaglV 
for (int v = 0; v < WE 
adj{v] = new BagéEdge> 0 





public Edgew édGraph (In i 
// 见 练习 4.3.9 

public int VC } 
public int EQ £ } 





public void addFdge(Edge ey 


int v = e.either(), w = e.other(v); 
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ple<Edge> adjCint v 


public Iterable<Edge> edges() 
// 请 见 4.3.2 节 框 注 “返回 加 权 无 向 图 中 的 所 有 边 ” 


} 

该 实现 使 用 了 一 个 由 顶点 索引 的 邻接 表 。 与 Graph ( 请 见 4.1.2.2 节 框 注 “Graph 数据 类 型 ”) 
一 样 ， 每 条 边 都 会 出 现 两 次 :如 果 一 条 边 连接 了 顶点 v 和 w， 那 么 它 既 会 出 现在 v 的 链表 中 也 会 出 
现在 w 的 链表 中 。edges0 方法 将 所 有 边 放 在 一 个 Bag 对 象 中 ( 请 见 4.3.2 节 框 注 “ 返 回 加 权 无 向 
图 中 的 所 有 边 ” ) 。toStringQ 方法 的 实现 留 作 练习 。 
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4.3.2.1 用 权重 来 比较 边 

API 说 明 Edge 类 必须 实现 Comparable 接口 并 包含 一 个 compareTo() 方法 。 一 幅 加 权 无 向 图 中 
的 边 的 自然 次 序 就 是 按 权重 排序 ， 相 应 的 compareTo() 方法 的 实现 也 就 很 简单 了 。 
4.3.2.2 平行 边 

和 无 环 图 的 实现 一 样 ， 这 里 也 允许 存在 平行 边 。 我 们 也 可 以 用 更 复杂 的 方式 实现 Edge- 
WeightedGraph 类 来 消除 平行 边 ， 比 如 只 保留 平行 的 边 中 的 权重 最 小 者 。 
4.3.3.3 自 环 

允许 存在 自 环 。 尽 管 自 环 可 能 的 确 存在 于 输入 或 是 数据 结构 之 中 ,但 是 EdgeweightedGraph 
中 edgeQ 的 实现 并 没有 统计 它们 。 这 对 最 小 生成 树 算法 没有 影响 ， 因 为 最 小 生成 树 肯定 不 会 含有 
自 环 。 如 果 在 应 用 中 自 环 很 重要 ， 那 你 或 许 需要 根据 应 用 场景 修改 代码 。 

你 会 看 到 ， 有 了 Edge 对 象 之 后 用 例 的 代码 就 可 以 变 得 更 加 干净 整洁 。 这 也 有 个 小 小 的 代价 
每 个 邻接 表 的 结 点 都 是 一 个 指向 Edge 对 象 的 引用 ， 它 们 含有 一 些 宛 余 的 信息 (v 的 邻接 链表 中 的 
每 个 结 点 都 会 用 一 个 变量 保存 v) 。 使 用 对 象 也 会 带 来 一 些 开销 。 虽 然 每 条 边 的 Edge 对 象 都 只 有 
一 个 ,但 邻接 表 中 还 是 会 含有 两 个 指向 同一 Edge 对 象 的 引用 。 另 一 种 广泛 使 用 的 方案 是 与 Graph 

- 样 ， 用 两 个 结 点 对 象 来 表示 一 条 边 ， 每 个 结 点 对 象 都 会 保存 顶点 的 信息 和 边 的 权重 。 这 种 方法 也 
是 有 代价 的 一 一 需要 两 个 结 点 ， 每 条 边 的 权重 都 会 被 保存 两 遍 。 


4.3.3 ”最 小 生成 树 的 API 和 测试 用 例 

按照 惯例 ， 在 API 中 会 定义 一 个 接受 加 权 无 向 图 为 参数 的 构造 函数 并 且 支 持 能 够 为 用 例 返 回 图 
的 最 小 生成 树 和 其 权重 的 方法 。 那 么 我 们 应 该 如 何 表示 最 小 生成 树 呢 ? 由 于 图 G 的 最 小 生成 树 是 G 
的 一 幅 子 图 并 且 同 时 也 是 一 棵 树 ， 因 此 我 们 有 很 多 选择 ， 最 主要 的 几 种 表示 方法 为 : 

口 一 组 边 的 列表 ; 

口 一 幅 加 权 无 向 图 ; 

口 一 个 以 顶点 为 索引 且 含 有 父 结 点 链接 的 数组 。 

在 为 各 种 应 用 选择 这 些 表示 方法 时 ， 我 们 希望 尽量 给 予 最 小 生成 树 的 实现 以 最 大 的 灵活 性 ， 因 
此 我 们 采用 了 表 4.3.4 所 示 的 API。 
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表 4.3.4 最 小 生成 树 的 API 
public class MST 








MST(EdgeWeightedGraph G) 构造 两 数 
Iterable<Edge> edges() 最 小 生成 树 的 所 有 边 
double weight() 最 小 生成 树 的 权重 





4.3.3.1 测试 用 例 
和 以 前 一 样 ， 我 们 会 创建 样 图 并 开发 一 个 


public static void main(String[] args) 





测试 用 例 来 测试 最 小 生成 树 的 实现 。 右 侧 框 注 { 
就 是 一 个 示例 。 它 从 输入 流 中 读 取 图 的 所 有 边 He dnt 
并 构造 一 幅 加 权 无 向 图 ， 然 后 计算 该 图 的 最 小 G = new EdgeweightedGraphCin) ; 
生成 树 并 打印 树 的 所 有 边 和 权重 之 和 。 MST mst = new MSTCG); 
4.3.3.2 ”测试 数据 for (Edge e : mst.edges()) 

你 可 以 在 本 书 的 网 站 上 找到 tinyEWG tt Sot snip hey 





文件 ， 它 定义 了 我 们 用 来 展示 最 小 生成 树 算法 } 

的 轨迹 样 图 ( 请 见 图 43.1 ) 。 在 网 站 上 你 还 能 

找到 mediumEWG bt， 它 定义 了 一 帆 含 有 250 可 人大 村 的 这 用 全 

个 顶点 的 加 权 无 向 图 ， 如 图 43.8 所 示 。 它 也 是 一 幅 欧 拉 图 的 示例 ， 它 的 顶点 都 是 平面 上 的 点 ， 边 为 
连接 它们 的 线段 且 权 重 为 两 点 之 间 的 欧 拉 距 离 。 这 样 的 图 有 助 于 我 们 理解 最 小 生成 树 算法 的 行为 ， 同 
时 也 是 我 们 提 到 过 的 许多 典型 实际 问题 的 模型 ， 例 如 公路 地 图 和 电路 图 。 在 本 书 的 网 站 上 你 还 能 找到 
一 幅 较 大 的 样 图 largeEWG:txt， 它 是 一 幅 含 有 一 百 万 个 顶点 的 欧 拉 图 。 我 们 的 目标 就 是 在 合理 的 时 间 
范围 内 通过 计算 得 到 这 种 规模 的 图 的 最 小 生成 树 








% more tinyEWG. txt % more mediumEWG. txt 
8 16 250 1273 
4 5 .35 244 246 0.11712 
4 7 .37 239 240 0.10616 
57 .28 238 245 0.06142 
07 .16 235 238 0.07048 
15 .32 233 240 0.07634 
04.38 232 248 0.10223 
2 17 231 248 0.10699 
17 .19 229 249 0.10098 
0 2 .26 228 241 0.01473 
1 2 .36 226 231 0.07638 
1 3 .29 … [还 有 1263 条 边 ] 
2 7 .34 
6 2 .40 % java MST mediumEWG. txt 
36.52 0 225 0.02383 
60.58 49 225 0.03314 
64.93 44 49 0.02107 
44 204 0.01774 
% java MST tinyEWG.txt 49 97 0.03121 
0-7 0.16 202 204 0.04207 
1-7 0.19 176 202 0.04299 
0-2 0.26 176 191 0.02089 
2-3 0.17 68 176 0.04396 
5-7 0.28 58 68 0.04795 
4-5 0.35 .. 。【 还 有 293 条 边 ] 
6-2 0.40 10.46351 
1.81 
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加 权 无 向 图 最 小 生成 树 


图 4.3.8 一 幅 含 有 250 个 顶点 的 无 向 加 权 欧 拉 图 ( 共 含有 1273 条 边 ) 和 它 的 最 小 生成 树 


4.3.4 ”Prim 算法 

我 们 要 学 习 的 第 一 种 计算 最 小 生成 树 的 方法 叫做 Prim 算法 ， 它 的 每 一 步 都 会 为 一 棵 生长 中 的 
树 添加 一 条 边 。 一 开始 这 棵 树 只 有 一 个 顶点 ， 添加 V1 条 边 ， 每 次 总 是 将 下 一 条 连接 树 
中 的 顶点 与 不 在 树 中 的 顶点 且 权重 最 小 的 边 加 入 树 中 ( 即 由 树 中 的 顶点 所 定义 的 切 分 
中 的 一 条 横 切 边 ) ， 如 图 4.3.9 所 示 。 






命题 L。Prim 算法 能 够 得 到 任意 加 权 无 向 图 的 最 小 生成 树 。 


证 明 。 由 命题 K 可 知 ， 这 棵 不 断 生长 的 树 定义 了 一 个 切 分 且 不 存在 黑色 的 横 切 边 。 该 算法 会 选 
取 权 重 最 小 的 横 切 边 并 根据 贪心 算法 不 断 将 它们 标记 为 黑色 。 


以 上 我 们 对 Prim 算法 的 简单 描述 没有 回答 -个 关键 的 问 
题 : 如 何 才能 ( 有 效 地 ) 找到 最 小 权重 的 模 切 边 呢 ? 人 们 提 。。 突 效 的 边 。 可 邮 史 ) 
出 了 很 多 方法 一 一 在 用 一 种 特别 简单 的 方法 解决 这 个 问题 之 
后 我 们 会 讨论 其 中 的 一 部 分 方法 。 
4.3.4.1 数据 结构 

实现 Prim 算法 需要 用 到 一 些 简单 常见 的 数据 结构 。 具 体 来 
说 ， 我 们 会 用 以 下 方法 表示 树 中 的 项 点 、 边 和 横 切 边 。 













将 要 添加 到 最 





口 顶点 。 使 用 一 个 由 顶点 索引 的 布尔 数组 marked[] ， 如 人 
果 顶 点 Y 在 树 中 ,那么 marked[v] 的 值 为 true。 1 圳 

口 边 。 选 择 以 下 两 种 数据 结构 之 一 : 一 条 队列 mst 来 保 /~ > 
存 最 小 生成 树 中 的 边 ， 或 者 一 个 由 顶点 索引 的 Edge 对 本 
象 的 数组 edgeTo[] ， 其 中 edgeTo[v] 为 将 v 连接 到 SY ye i 


树 中 的 Edge 对 象 。 
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口 横 切 边 : 使 用 一 条 优先 队列 MinPQ<Edge> 来 根据 权重 比较 所 有 边 ( 请 见 4.3.2 节 框 注 “ 带 权 
重 的 边 的 数据 类 型 ”) 。 

有 了 这 些 数 据 结构 我 们 就 可 以 回答 “ 哪 条 边 的 权重 最 小 ? ”这 个 基本 的 问题 了 。 
4.3.4.2 ”维护 横 切 边 的 集合 

每 当 我 们 向 树 中 添加 了 一 条 边 之 后 ,也 
向 树 中 添加 了 一 个 顶点 。 要 维护 一 个 包含 所 有 
横 切 边 的 集合 ， 就 要 将 连接 这 个 顶点 和 其 他 
所 有 不 在 树 中 的 顶点 的 边 加 入 优先 队列 ( 用 
marked[] 来 识别 这 样 的 边 ) 。 但 还 有 一 点 : 要 可 
连接 新 加 入 树 中 的 顶点 与 其 他 已 经 在 树 中 顶点 。 ”0-2 0 ee 
的 所 有 边 都 失效 了 。 ( 这 样 的 边 都 已 经 不 是 横 。 * : 
切 边 了 ， 因 为 它 的 两 个 顶点 都 在 树 中 。) Prim 。 * 
算法 的 即时 实现 可 以 将 这 样 的 边 从 优先 队列 中 
删 掉 ， 但 我 们 先 来 学 习 这 个 算法 的 一 种 延 时 实 
现 ， 将 这 些 边 先 留 在 优先 队列 中 ， 等 到 要 删除 
它们 的 时 候 再 检查 边 的 有 效 性 ，。 

图 4.3.10 是 处 理 样 图 tinyEWG.txt 的 轨迹 。 
每 一 张 图 片 都 是 算法 访问 过 一 个 顶点 之 后 (被 
添加 到 树 中 ， 邻 接 链 表 中 的 边 也 已 经 被 处 理 完 
成 ) 图 和 优先 队列 的 状态 。 优 先 队列 的 内 容 被 
按照 显示 在 一 侧 ， 树 中 的 新 顶点 旁边 有 个 
星 号 。 算 法 构造 最 小 生成 树 的 过 程 如 下 所 述 。 

口 将 顶点 0 添加 到 最 小 生成 树 之 中 ,将 它 
的 邻接 链表 中 的 所 有 边 添加 到 优先 队列 
之 中 。 

口 将 顶点 7 和 边 0-7 添加 到 最 小 生成 树 
之 中 ， 将 顶点 的 邻接 链表 中 的 所 有 边 
添加 到 优先 队列 之 中 。 

口 将 顶点 1 和 边 1-7 添加 到 最 小 生成 树 
之 中 ,将 顶点 的 邻接 链表 中 的 所 有 边 
添加 到 优先 队列 之 中 。 

口 将 顶点 2 和 边 0-2 添加 到 最 小 生成 树 
之 中 ,将 边 2-3 和 6-2 添加 到 优先 队 
列 之 中 。 边 2-7 和 1-2 失效 。 

口 将 顶点 3 和 边 2-3 添加 到 最 小 生成 树 
之 中 , 将 边 3-6 添加 到 优先 队列 之 中 。 
边 1-3 失 效 。 

口 将 顶点 5 和 边 5-7 添加 到 最 小 生成 树 
之 中 , 将 边 4-5 添加 到 优先 队列 之 中 。 
边 1-5 失效 。 图 4.3.10 Prim 算法 的 轨迹 〈 延 时 实现 ， 另 见 彩 播 ) 
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口 从 优先 队列 中 删除 失效 的 边 1-3、1-5 和 2-7。 

口 将 顶点 4 和 边 4-5 添 加 到 最 小 生成 树 之 中 ,将 边 6-4 添 加 到 优先 队列 之 中 。 边 4-7 和 0-4 失 效 。 

口 从 优先 队列 中 删除 失效 的 边 1-2、4-7 和 0-4。 

口 将 顶点 6 和 边 6-2 添加 到 最 小 生成 树 之 中 ， 和 顶点 6 相关 联 的 其 他 边 均 医 效 。 

在 添加 了 个 顶点 (以 及 天 1 条 边 ) 之 后 ,最 小 生成 树 就 完成 了 。 优 先 队列 中 的 余下 的 边 都 是 
无 效 的 ， 不 需要 再 去 检查 它们 。 
4.3.4.3 实现 

有 了 这 些 预备 知识 ，Prim 算法 的 实现 就 很 简单 了 ， 请 见 后 面 框 注 “最 小 生成 树 的 Prim 算法 的 
延 时 实现 ”中 的 LazyPrimMST 类 。 和 前 两 节 实 现 深度 优先 搜索 和 广度 优先 搜索 一 样 ， 实 现 会 在 构 
造 函 数 中 计算 图 的 最 小 生成 树 ， 这 样 用 例 方法 就 可 以 用 查询 类 方法 获得 最 小 生成 树 的 各 种 属性 。 我 
们 使 用 了 一 个 私有 方法 visit0) 来 为 树 添加 一 个 顶点 、 将 它 标 记 为 “已 访问 ”并 将 与 它 关联 的 所 
有 未 失效 的 边 加 入 优先 队列 ， 以 保证 队列 含有 所 有 连接 树 顶 点 和 非 树 顶 点 的 边 (也 可 能 含有 一 些 已 
经 失效 的 边 ) 。 代 码 的 内 循环 是 算法 的 具体 实现 : 我 们 从 优先 队列 中 取出 一 条 边 并 将 它 添加 到 树 中 
( 如 果 它 还 没有 失效 的 话 ) ， 再 把 这 条 边 的 另 一 个 顶点 也 添加 到 树 中 ， 然 后 用 新 顶点 作为 参数 调用 
visit() 方法 来 更 新 横 切 边 的 集合 。weight 0) 方法 可 以 遍历 树 的 所 有 边 并 得 到 它们 的 权重 之 和 ( 延 
时 实现 ) 或 是 用 一 个 运行 时 的 变量 统计 总 权重 ( 即时 实现 ) ， 这 一 点 留 作 练习 4.3.31。 
4.3.4.4 ”运行 时 间 

Prim 算法 有 多 快 ? 我 们 已 经 知道 优先 队列 的 性 质 ， 所 以 要 回答 这 个 问题 并 不 困难 。 


命题 M。Prim 算法 的 延 时 实现 计算 一 幅 含 及 个 顶点 和 条 边 的 连通 加 权 无 向 图 的 最 小 生成 树 
所 需 的 空间 与 已 成 正比 ， 所 需 的 时 间 与 ElogE 成 正比 ( 最 坏 情况 ) 。 


证 明 。 算 法 的 瓶颈 在 于 优先 队列 的 insert() 和 de1Min() 方法 中 比较 边 的 权重 的 次 数 。 优 先 
队列 中 最 多 可 能 有 已 条 边 ， 这 就 是 空间 需求 的 上 限 。 在 最 坏 情况 下 ， 一 次 插入 的 成 本 为 ~ lgE， 
删除 最 小 元 素 的 成 本 为 ~ 2lgE (请 见 第 2 章 的 命题 O ) 。 因 为 最 多 只 能 插入 已 条 边 ， 删 除 瑟 次 
最 小 元 素 ， 时 间 上 限 显而易见 。 


在 实际 中 ， 估 计 的 运行 时 间 上 限 是 比较 保守 的 ， 因 为 一 般 情况 下 优先 队列 中 的 边 都 远 小 于 E。 
这 么 困难 的 任务 ， 解决 方法 却 如 此 的 简单 、 高 效 而 实用 ， 实 在 令 人 佩服 。 下 面 ， 我 们 会 简要 讨论 一 
些 改进 算法 的 方法 。 和 以 前 一 样 , 在 性 能 优先 的 应 用 场景 中 仔细 评估 这 些 改进 的 工作 应 该 留 给 专家 。 
最 小 生成 树 的 Prim 算法 的 延 时 实现 


public class LazyprimMST 
Ls 





private boolean[] marked; // 最 小 生成 树 的 顶点 
private Queue<Edge> mst; // 最 小 生成 树 的 边 
private MinPQ<Edge> pq; // 横 切 边 (包括 失 效 的 边 ) 


public LazyPrimMST(EdgeweightedGraph G) 
{ 

pq = new MinpQ<Edge>(); 

marked = new boolean[G.VO]; 

mst = new Queue<Edge>(); 


Visit(G，0);  // 假设 G 是 连通 的 (请 见 练习 4.3.22) 
while (!pq.isEmptyO)) 
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Edge e = pq.delMinO); // 从 pq 中 得 到 权重 最 小 的 边 


int v = e.either(), w = e.other(v); // 跳 过 失效 的 边 
if (marked[v] && marked[w]) continue; 


mst.enqueue(e); // 将 边 添加 到 树 中 
if (!marked[v]) visit(G, v); // 将 顶点 (Vv 或 W) 添加 到 树 中 
if CImarked[w]) visit(G, w; 


} 
S 


private void visit(EdgeweightedGraph G, int v) 
全 // 标记 顶点 v 并 将 所 有 连接 V 和 未 被 标记 顶点 的 边 加 入 pq 
marked[v] = true; 
for (Edge e : G.adj(v)) 
if (!marked[e.other(v)]) pq.insert(e); 
} 


public Iterable<Edge> edges() 
{ return mst; 
public double weight() 请 见 练习 4.3.31 
} 
Prim 算法 的 这 种 实现 使 用 了 一 条 优先 队列 来 保存 所 有 的 横 切 边 、 一 个 由 顶点 索引 的 队列 来 标记 树 的 
顶点 以 及 一 条 队列 来 保存 最 小 生成 树 的 边 。 这 种 延 时 实现 会 在 优先 队列 中 保留 失效 的 边 。 
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4.3.5 ”Prim 算法 的 即时 实现 
要 改进 LazyPrimMST， 可 以 尝试 从 优先 队列 中 删除 失效 的 


边 ， 这 样 优先 队列 就 只 含有 树 项 点 和 非 树 项 点 之 间 的 横 切 边 ， Wg 
但 其 实 还 可 以 删除 更 多 的 边 。 关 键 在 于 ， 我 们 感 兴趣 的 只 是 连 | 


接 树 顶点 和 非 树 顶 点 中 权重 最 小 的 边 。 当 我 们 将 顶点 v 添加 到 
树 中 时 ， 对 于 每 个 非 树 顶点 w 产生 的 变化 只 可 能 使 得 w 到 最 小 


生成 树 的 距离 更 近 了 ， 如 图 4.3.11 所 示 。 简 而 言 之 , 我 们 不 需 | 人 六 
要 在 优先 队列 中 保存 所 有 从 w 到 树 顶点 的 边 一 而 只 需要 保存 使 得 w 和 本 
其 中 权重 最 小 的 那 条 ， 在 将 v 添加 到 树 中 后 检查 是 否 需 要 更 新 的 距离 更 近 了 


这 条 权重 最 小 的 边 ( 因为 v-w 的 权重 可 能 更 小 ) 。 我 们 只 需 遍 
历 v 的 邻接 链表 就 可 以 完成 这 个 任务 。 换 名 话说， 我 们 只 会 在 
优先 队列 中 保存 每 个 非 树 顶点 w 的 一 条 边 : 将 它 与 树 中 的 顶点 连接 起 来 的 权重 最 小 的 那 条 边 。 将 w 和 
树 的 项 点 连接 起 来 的 其 他 权重 较 大 的 边 迟早 都 会 失效 ， 所 以 没 必 要 在 优先 队列 中 保存 它们 。 

PrimMST 类 ( 请 见 算法 4.7) 使 用 了 2.4 节 中 介绍 的 索引 优先 队列 实现 的 Prim 算法 。 它 将 
LazyPrimMST 中 的 marked[] 和 mst[] 替换 为 两 个 顶点 索引 的 数组 edgeTo[] 和 distTo[]， 它 们 
具有 如 下 性 质 。 

口 如 果 项 点 v 不 在 树 中 但 至 少 含有 一 条 边 和 树 相连 ,那么 edgeTo[v] 是 将 v 和 树 连接 的 最 短 边 ， 

distTo[v] 为 这 条 边 的 权重 。 

口 所 有 这 类 顶点 v 都 保存 在 一 条 索引 优先 队列 中 , 索引 v 关联 的 值 是 edgeTo[v] 的 边 的 权重 。 

这 些 性 质 的 关键 在 于 优先 队列 中 的 最 小 键 即 是 权重 最 小 的 横 切 边 的 权重 ， 而 和 它 相关 联 
的 顶点 v 就 是 下 一 个 将 被 添加 到 树 中 的 顶点 。marked[] 数组 已 经 没有 必要 了 ， 因 为 判断 条 
件 Imarked[w] 等 价 于 distTo[w] 是 无 穷 的 ( 且 edgeTo[w] 为 nu11) 。 要 维护 这 些 数据 结构 ， 


图 4.3.11 Prim 算法 的 即时 实现 
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PrimMST 会 从 优先 队列 中 取出 一 条 边 v 
并 检查 它 的 邻接 链表 中 的 每 条 边 v-w。 
如 果 w 已 经 被 标记 过 ， 那 么 这 条 边 就 
已 经 失效 了 ; 如 果 w 不 在 优先 队列 中 
或 者 v-w 的 权重 小 于 目前 已 知 的 最 小 
值 edgeTo[w] ， 代 码 会 更 新 数组 ， 将 
v-w 作 为 将 v 和 树 连接 的 最 佳 选择 。 

图 4.3.12 所 示 的 是 PrimMST 在 处 理 
样 图 tinyEWG.txt 过 程 中 的 轨迹 。 将 每 
个 顶点 加 入 最 小 生成 树 之 后 ，edgeTo[] 
和 distTo[] 的 内 容 显示 在 右 侧 ， 不 同 
的 颜色 显示 了 最 小 生成 树 中 的 顶点 〈( 索 
引 为 黑色 ) 、 非 最 小 生成 树 的 顶点 ( 索 
引 为 灰色 ) 、 最 小 生成 树 的 边 (黑色 ) 
和 优先 队列 中 的 索引 值 对 ( 红色 ) 。 在 
示意 图 中 ,将 每 个 非 最 小 生成 树 顶 点 连 
接 到 树 的 最 短 边 为 红色 。 该 算法 向 最 小 
生成 树 中 添加 的 边 的 顺序 和 延 时 版 本 相 
同 ,不 同 之 处 在 于 优先 队列 的 操作 。 它 
构造 最 小 生成 树 的 过 程 如 下 所 述 。 

口 将 顶点 0 添加 到 最 小 生成 树 之 

中 ， 将 它 的 邻接 链表 中 的 所 有 边 
添加 到 优先 队列 之 中 ， 因 为 这 些 
边 都 是 目前 (唯一 ) 已 知 的 连接 
非 树 顶点 和 树 顶 点 的 最 短 边 。 

口 将 顶点 7 和 边 0-7 添加 到 最 小 生 
成 树 之 中 ,将 边 1-7 和 5-7 添加 
到 优先 队列 之 中 。 边 4-7 和 2-7 
不 会 影响 到 优先 队列 ， 因 为 它们 
的 权重 分 别 都 大 于 连接 项 点 2 和 
4 与 最 小 生成 树 的 最 小 边 。 

口 将 顶点 1 和 边 1-7 添加 到 最 小 生 
成 树 之 中 ， 将 边 1-3 添加 到 优先 
队列 之 中 。 

口 将 顶点 2 和 边 0-2 添加 到 最 小 生 

成 树 之 中 ,将 连接 项 点 6 与 树 的 
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4.3.12 Prim 算法 的 轨迹 (即时 版 本 ， 另 见 彩 插 ) 


最 小 边 由 0-6 替换 为 2-6， 将 连接 顶点 3 与 树 的 最 小 边 由 1-3 替换 为 2-3。 
口 将 顶点 3 和 边 2-3 添加 到 最 小 生成 树 之 中 。 
口 将 顶点 5 和 边 5-7 添加 到 最 小 生成 树 之 中 ,将 连接 顶点 4 与 树 的 最 小 边 由 0-4 替换 为 4-5。 
口 将 顶点 4 和 边 4-5 添加 到 最 小 生成 树 之 中 。 


4.3 最 小 生成 树 呈 403 


口 将 顶点 6 和 边 6-2 添加 到 最 小 生成 树 之 中 。 
添加 了 1 条 边 之 后 ， 最 小 生成 树 完成 且 优先 队列 为 空 。 


算法 4.7 最 小 生成 树 的 Prim 算法 (即时 版 本 ) 





public class PrimMST 


{ 
private Edge[] edgeTo; // 距离 树 最 近 的 边 
private double[] distTo; // distTo[w]=edgeTo[w] .weight() 
private boolean[] marked; // 如 果 V 在 树 中 则 为 true 
private IndexMinPQ<Double> pq; // 有 效 的 横 切 边 
public PrimMSTCEdgeweightedGraph G) 
{ 
edgeTo = new Edge[G.VO]; 
distTo = new double[G.VO]; 
marked = new boolean[G.VO]; 
for (int v = 0; v < GVO; v++) 
distTo[v] = Double.POSITIVE_INFINITY; 
pq = new IndexMinPQ<Double>(G.VO); 
distTo[0] = 0.0; 
pq.insert(0, 0.0); // 用 顶点 0 和 权重 0 初始 化 pq 
while (!pq.isEmpty()) 
Visit(G, pq.deIMin()); // 将 最 近 的 顶点 添加 到 树 中 
} 
private void visit(EdgeweightedGraph G, int v) 
{ // 将 顶点 v 添 加 到 树 中 ， 更 新 数据 
marked[v] = true; 
for (Edge e : G.adj(v)) 
‘ 
int w = e.other(v); 
if (marked[w]) continue; // v-w 失 效 
if (e.weight() < distTo[w]) 
{。// 连接 w 和 树 的 最 佳 边 Edge 变 为 e 
edgeTo[w] = e; 
distTo[w] = e.weightO; 
if (pq.contains(w)) pq.change(w, distTo[w]); 
else pq.insert(w, distTo[w]); 
} 
} 
} 
public Iterable<Edge> edges()  // 请 见 练习 4321 
public double weight() // 请 见 练习 4331 


这 份 Prim 算法 的 实现 将 所 有 有 效 的 横 切 边 保存 在 了 一 条 索引 优先 队列 中 。 





该 算法 的 证 明 与 命题 M 的 证 明 本 质 上 相同 ，Prim 算法 的 即时 版 本 可 以 找到 一 幅 连 通 的 加 权 无 
向 图 的 最 小 生成 树 ， 所 需 时 间 和 Elogy 成 正比 ， 空 间 和 少 成 正比 (请 见 命题 N) 。 对 于 实际 应 用 中 
经 常 出 现 的 巨型 稀 朴 图 ， 两 者 在 时 间 上 限 上 没有 什么 区 别 ( 因为 对 于 稀疏 图 来 说 是 lgE ~ lgV), 
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但 空间 上 限 变 为 了 原来 的 一 个 常数 因子 ( 但 很 显著 ) 。 在 性 能 优先 的 应 用 场景 中 ， 更 加 深入 的 分 析 
和 实验 最 好 还 是 留 给 专家 吧 , 因为 相关 的 因素 有 很 多 ,例如 MinPQ 和 IndexPQ 的 实现 、 图 的 表示 方法 、 
应 用 场景 所 使 用 的 图 模型 等 。 按 照 惯例 ， 我 们 需要 仔细 研究 这 些 改进 ， 因 为 只 有 当 这 种 常数 因子 的 
性 能 改进 非常 必要 时 ， 它 所 带 来 的 代码 复杂 性 才 是 值得 的 。 在 复杂 的 现代 系统 中 有 时 这 样 做 甚至 会 
得 不 偿 失 。 


命题 N。Prim 算法 的 即时 实现 计算 一 幅 含 有 个 顶点 和 已 条 边 的 连通 加 权 无 向 图 的 最 小 生成 树 
所 项 的 空间 和 玉成 正比 ， 所 需 的 时 间 和 ElogF 成 正比 (最 坏 情况 ) 。 


证 明 。 因 为 优先 队列 中 的 边 数 最 多 为 VY， 上 且 使 用 了 三 条 由 顶点 索引 的 数组 ， 所 以 所 需 空间 的 上 
限 和 米 成 正比 。 算 法 会 进行 次 插入 操作 ,上 次 删除 最 小 元 素 的 操作 和 ( 在 最 坏 情 况 下 )EE 次 


改变 优先 级 的 操作 。 已 知 在 基于 堆 实 现 中 的 索引 优先 队列 中 所 有 这 些 操作 的 增长 数量 级 为 logV 
(请 见 第 2 章 命题 Q) ， 所 以 将 所 有 这 些 加 起 来 可 知 算法 所 需 时 间 和 ElogV 成 正比 。 


图 4.3.13 展示 了 Prim 算法 是 如 何 处 理 含有 250 个 项 点 的 欧 拉 图 mediumEWG.txt 的 。 这 是 
-个 很 有 意思 的 动态 过 程 ( 请 见 练习 4.3.27) 。 大 多 数 情况 下 ， 树 的 生长 都 是 通过 连接 一 个 和 


新 加 入 的 顶点 相 邻 的 顶点 。 当 新 加 入 的 顶 围 没 有 非 树 项 点 时 ， 树 的 生长 又 会 从 另 一 部 分 
开始 。 


A 训 


图 4.3.13 Prim 算法 (250 个 顶点 ) 








4.3.6 ”Kruskal 算法 


我 们 要 仔细 学 习 的 第 二 种 最 小 生成 树 算法 的 主要 思想 是 按照 边 的 权重 顺序 ( 从 小 到 大 ) 处 理 它们 ， 
将 边 加 入 最 小 生成 树 中 ( 图 中 的 黑色 边 ) ， 加 入 的 边 不 会 与 已 经 加 入 的 边 构 成 环 ， 直 到 树 中 含有 大 1 
条 边 为 止 。 这 些 黑色 的 边 逐 渐 由 一 片 森林 合并 为 一 标 树 ， 也 就 是 图 的 最 小 生成 树 。 这 种 计算 方法 被 称 为 
Kruskal 算法 。 
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© LQ© 命题 0。Kruskal 算法 能 够 计算 任意 加 权 无 向 图 
三 © 的 最 小 生成 树 。 
© © 证 明 。 由 命题 K 可 知 ， 如 果 下 一 条 将 被 加 入 最 
© © A 小 生成 树 中 的 边 不 会 和 已 有 的 黑色 边 构成 环 ， 
名 那么 它 就 跨越 了 由 所 有 和 树 顶 点 相 邻 的 顶点 组 
or 成 的 集合 以 及 它们 的 补 集 所 构成 的 一 个 切 分 。 
0 因为 加 入 的 这 条 边 不 会 形成 环 、 它 是 目前 已 各 
© © 8 a 的 叭 一 一 条 横 切 边 且 是 按照 权重 顺序 选择 的 过 
@ 的 边 《黑色 ) | 所 以 它 必然 是 权重 最 小 的 模 切 边 。 因 此 ， 该 算 
GE 下。 法 能 够 连续 选择 权重 最 小 的 模 切 边 ， 和 贪心 算 
Q® 3 0 ms 
© 0-2 0.26 
8 5-7 0.28 Prim 算 法 是 一 条 边 一 条 边 地 来 构造 最 小 生成 树 ， 
一 © 每 一 步 者 为 一 棵 树 添加 一 条 边 。Kruskal 算法 构造 最 
1.5 0.35 小 生成 树 的 时 候 也 是 一 条 边 一 条 边 地 构造 ， 但 不 同 的 
© 是 它 寻找 的 边 会 连接 一 片 森林 中 的 两 棵 树 。 我 们 从 一 
CA 二 片 由 严 棵 单项 点 的 树 构成 的 森林 开始 并 不 断 将 两 棵 树 
© © 合并 (用 可 以 找到 的 最 短 边 ) 直到 只 剩 下 一 棵 树 ， 它 
时 就 是 最 小 生成 树 。 
© EM 图 4.3.14 显示 的 是 Kruskal 算法 处 理 tinyEWG.txt 
Cr 时 的 每 一 个 步 又。 首先 ， 权 重 最 小 的 条 边 都 被 加 入 到 
(O) © 了 最 小 生成 树 中 ， 之 后 算法 判断 出 1-3、1-5 和 2-7 
©® 已 经 失效 并 将 4-5 加 入 最 小 生成 树 。 最 后 1-2、4-7 
OA 人 和 0-4 失效 ，6-2 被 加 入 最 小 生成 树 。 
Atm 有 了 本 书 中 我 们 已 经 学 习 过 的 许多 工具 ， 
四 © Kruskal 算法 的 实现 并 不 困难 :我 们 将 会 使 用 一 条 优 


先 队列 ( 请 见 2.4 节 ) 来 将 边 按照 权重 排序 ， 用 一 
个 union-find 数据 结构 ( 请 见 1.5 节 ) 来 识别 会 形成 
环 的 边 ， 以 及 一 条 队列 ( 请 见 1.3 节 ) 来 保存 最 小 
生成 树 的 所 有 边 。 算 法 4.8 实现 了 以 上 设想 。 注意， 
使 用 队列 来 保存 最 小 生成 树 的 所 有 边 意味 着 用 例 在 
用 43.14 Kmskal 算法 的 轨 严 ( 另 见 彩 轿 】 。 沁 历 时 将 会 按照 权重 的 升序 得 到 这 些 边 。weight 
方法 需要 帝 历 所 有 边 来 取得 权重 之 和 ( 或 是 使 用 一 个 变量 动态 统计 权重 之 和 ) ， 它 的 实现 留 作 练 
习 (请 见 练习 4.3.31 ) 。 
分 析 Kruskal 算法 所 需 的 运行 时 间 很 简单 ， 因 为 我 们 已 经 知道 它 的 操作 所 需 的 时 间 。 


O—O 
ee 
YO 
df 


命题 N ( 续 ) 。Kruskal 算法 的 计算 一 幅 含有 7 个 顶点 和 互 条 边 的 连通 加 权 无 向 图 的 最 小 生成 
树 所 顷 的 空间 和 盛 成 正比 ， 所 需 的 时 间 和 ElogE 成 正比 (最 坏 情况 ) 。 
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证 明 。 算 法 的 实现 在 构造 函 教 中 使 用 所 有 边 初始 化 优先 队列 ， 成 本 最 多 为 已 次 比较 (请 见 2.4 
节 )。 优 先 队列 构造 完成 后 , 其 余 的 部 分 和 Prim 算法 完全 相同 。 优先 队列 中 最 多 可 能 含有 条 边 ， 
即 所 需 空间 的 上 限 。 每 次 操作 的 成 本 最 多 为 2lgE 次 比较 ， 这 就 是 时 间 上 限 的 由 来 。Kruskal 算 
法 最 多 还 会 进行 已 次 Connected() 入 次 union() 操作 ， 但 这 些 成 本 相 比 ElogE 的 总 时 间 的 
增长 数量 级 可 以 忽略 不 计 (请 见 1.5 节 ) 。 


与 Prim 算法 一 样 ， 这 个 估计 是 比较 保守 的 ， 因 为 算法 在 找到 V1 条 边 之 后 就 会 终止 。 实 际 的 
成 本 应 该 与 E+EologE 成 正比 ， 其 中 5 是 权重 小 于 最 小 生成 树 中 权重 最 大 的 边 的 所 有 边 的 总 数 。 尽 
?| 管 拥有 这 个 优势 ，Kruskal 算法 一 般 还 是 比 Prim 算法 要 慢 ， 因 为 在 处 理 每 条 边 时 除了 两 种 算法 都 要 
625| 完成 的 优先 队列 操作 之 外 ， 它 还 需要 进行 一 次 connect() 操作 ( 请 见 练习 4.3.39 ) 。 
图 4.3.15 所 示 为 Kruskal 算法 在 处 理 较 大 的 样 图 mediumEWG.txt 时 的 动态 情况 。 很 显然 ， 边 是 
按照 权重 顺序 被 添加 到 森林 中 的 。 
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626 图 4.3.15 Kruskal 算法 (250 个 顶点 ) 
算法 4.8 ”最 小 生成 树 的 Kruskal 算法 
public class KruskalMST 
{ 
private Queue<Edge> mst; 
public KruskalMST(EdgeWeightedGraph ©) 
{ 
mst = new Queue<Edge>(); 
MinPQ<Edge> pq = new MinPQ<Edge>(G.edges()); 
UF uf = new UF(G.VO); 
while (!pq.isEmpty() && mst.size() < G.VO-1) 
{ 
Edge e = pq.delMinO) ; // 从 pq 得 到 权重 最 小 的 边 和 它 的 顶点 


int v = e.either), w = e-other(v); 
if (uf.connected(v, w)) continue;  // 忽略 失效 的 边 
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uf.union(v, Ww); // 合并 分 量 
mst.enqueue(e); // 将 边 添加 到 最 小 生成 树 中 
} 


public Iterable<Edge> edgesO) 
{ return mst; } 


public double weight() // 请 见 练习 4.3.31 
} 
这 份 Kruskal 算法 的 实现 使 用 了 一 条 队列 来 保 


存 最 小 生成 树 中 的 所 有 边 、 一 条 优先 队列 来 保存 还 ee rah nv 
未 被 检查 的 边 和 一 个 union-find 的 数据 结构 来 判断 无 2-3 0.17 
效 的 边 。 最 小 生成 树 的 所 有 边 会 按照 权重 的 升序 返 7 
回 给 用 例 。weight() 方法 的 实现 留 作 练习 。 0 
4-5 0.35 
6-2 0.40 
1.81 





4.3.7 展望 

最 小 生成 树 问 题 是 本 书 中 的 被 研究 的 最 多 的 几 个 问题 之 一 。 解决 这 个 问题 的 基本 方法 在 现代 数 
据 结构 和 算法 性 能 分 析 手段 的 发 明之 前 就 已 经 问世 了 。 在 当时 ,计算 - 幅 含 有 上 千 条 边 的 图 的 最 小 
生成 树 还 是 一 项 令 人 望 而 生 晨 的 任务 我 们 学 习 的 最 小 生成 树 算法 和 这 些 老式 方法 的 不 同 之 处 主要 
在 于 运用 了 现代 的 数据 结构 来 完成 一 些 基 本 的 操作 ， 这 (再 加 上 现代 的 计算 能 力 ) 使 得 我 们 可 以 计 
算 含有 上 百 万 甚至 数 十 亿 条 边 的 图 的 最 小 生成 树 。 
4.3.7.1 历史 资料 

计算 稠密 图 的 最 小 生成 树 算法 ( 请 见 练习 4.3.29 ) 最 早 是 由 R.Prim 在 1961 年 发 明 的 ， 随 
后 EW.Dijkstra 也 独自 发 明了 它 。 尽 管 Dijkstra 的 描述 更 为 通用 ， 但 这 个 算法 通常 被 称 为 Prim 算 
法 。 其 实 算法 的 基本 思想 是 VJamik 在 1939 年 发 明 的 ， 所 以 一 些 人 也 将 这 种 方法 称 为 Jarnik 算法 
并 认为 Prim 的 ( 或 是 Dijkstra ) 的 贡献 在 于 为 稠密 图 找到 了 高 效 的 实现 算法 。 在 20 世纪 70 年 代 
优先 队列 发 明之 后 ， 它 直接 被 应 用 在 了 寻找 稀疏 图 中 的 最 小 生成 树 上 。 计算 稀疏 图 中 的 最 小 生成 
树 所 需 的 时 间 和 ElogE 成 正比 很 快 广为人知 且 并 没有 将 此 归功 于 任何 一 位 研究 者 。 在 1984 年 ， 
M.L.Fredman 和 R.E.Tarjan 发 明了 数据 结构 辈 波 纳 契 堆 ， 将 Prim 算法 所 需 的 运行 时 间 在 理论 上 改 
进 到 了 E+ViogV。J.Kruskal 在 1956 年 就 发 表 了 他 的 算法 ， 但 同样 ， 相关 的 抽象 数据 结构 在 很 多 年 
中 都 没有 被 仔细 研究 。 有 趣 的 是 ，Kmuskal 的 论文 中 提 到 了 Prim 算法 的 一 个 变种 ， 而 O.Boruvka 
在 1926 年 (! ) 的 论文 中 就 已 经 提 到 了 这 两 种 不 同 的 方法 。Boruvka 的 论文 要 解决 的 是 一 个 电 
力 分 配 的 问题 并 介绍 了 另外 一 种 用 现代 数据 结构 可 以 轻易 实现 的 方法 (请 见 练习 4.3.43 和 练习 
4.3.44) 。M.Sollin 在 1961 年 重新 发 现 了 这 个 方法 。 该 方法 随后 引起 了 其 他 人 的 注意 并 成 为 实现 较 
好 的 渐进 性 能 的 最 小 生成 树 算法 和 平行 最 小 生成 树 算法 的 基础 。 各 种 最 小 生成 树 算法 的 特点 请 见 
表 4.3.5。 
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表 4.3.5 各 种 最 小 生成 树 算法 的 性 能 特点 
V 个 项 点 E 条 边 ， 最 坏 情况 下 的 增长 数量 级 





算 法 
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空间 时 间 
延 时 的 Prim 算法 E ElogE 
即时 的 Prim 算法 v Elogy 
Kruskal E ElogE 
Fredman-Tarjan v EtViogy 
Chazelle V 非常 接近 但 还 没有 达到 EE 
理想 情况 V EY? 








4.3.7.2 ”线性 的 最 小 生成 树 算法 ? 

一 方面 ， 目 前 还 没有 理论 能 够 证 明 ， 不 存在 能 在 线性 时 间 内 得 到 任意 图 的 最 小 生成 树 的 算法 。 
另 一 方面 ， 发 明 能 够 在 线性 时 间 内 计算 稀疏 图 的 最 小 生成 树 的 算法 仍然 没有 进展 。 自 从 20 世纪 70 
年 代 将 union-find 数据 结构 应 用 于 Kruskal 算法 以 及 将 优先 队列 应 用 于 Prim 算法 之 后 ， 更 好 的 实现 
这 些 抽象 数据 结构 就 成 了 许多 研究 者 的 主要 目标 。 许 多 研究 者 都 将 寻找 高 效 的 优先 队列 的 实现 作为 
找到 稀 朴 图 的 高 效 的 最 小 生成 树 算法 的 关键 ， 而 其 他 一 些 人 则 研究 了 Boruvka 算法 的 一 些 变种 并 将 
它们 作为 近似 于 线性 级 别 的 稀疏 图 的 最 小 生成 树 算法 的 基础 。 这 些 研究 仍然 有 和 希望 最 终 为 我 们 带 来 
一 个 实用 的 线性 最 小 生成 树 算法 ， 它 们 甚至 已 经 显示 了 一 个 线性 时 间 的 随机 化 算法 的 存在 性 。 研 究 
者 距离 线性 时 间 的 目标 已 经 很 近 了 : B.Chazelle 在 1997 年 发 表 了 一 个 算法 ， 它 在 实际 应 用 中 和 线性 
时 间 的 算法 的 差距 已 经 小 到 了 无 法 区 别 的 程度 ( 尽管 可 以 证 明 它 并 不 是 线性 的 ) ， 但 它 非常 复杂 以 
至 于 无 法 实用 。 尽 管 此 类 研究 得 到 的 算法 大 都 十 分 复杂 , 其 中 一 些 的 简化 版 也 许可 以 进入 实际 应 用 。 
同时 ， 在 大 多 数 应 用 场景 中 ， 我 们 都 可 以 使 用 已 经 学 过 的 基本 方法 在 线性 时 间 内 得 到 图 的 最 小 生成 
树 ， 只 是 对 于 一 些 稀疏 图 所 需 的 时 间 要 乘 以 logV。 

总 的 来 说 ， 我 们 可 以 认为 在 实际 应 用 中 最 小 生成 树 问 题 已 经 被 “解决 ”了 。 对 于 大 多 数 的 图 来 
说 ， 找 到 它 的 最 小 生成 树 的 成 本 只 比 饥 历 图 的 所 有 边 稍 高 一 点 。 除 了 极为 稀 下 的 图 ， 这 一 点 都 能 成 
立 ， 但 即使 是 在 这 种 情况 下 ， 使 用 最 好 的 算法 所 能 得 到 的 性 能 提升 也 不 过 是 一 个 很 小 的 常数 因子 ， 
可 能 最 多 10 倍 。 人 们 已 经 在 许多 图 的 模型 中 证 明了 这 些 结论 ， 而 很 多 实践 者 则 已 经 使 用 Prim 算法 
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和 Kruskal 算法 计算 大 型 图 中 的 最 小 生成 树 数 十 年 之 久 了 。 


围 答 经 


问 Prim 和 Kruskal 算法 能 够 处 理 有 向 图 吗 ? 
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答 不 行 ， 不 可 能 。 那 是 一 个 更 加 困难 的 有 向 图 处 理 问题 ， 叫 做 最 小 树 形 图 问题 。 





图 练 


4.3.1 证 明 可 以 将 图 中 的 所 有 边 的 权重 都 加 上 一 个 正常 数 或 是 都 乘 以 一 个 正常 数 ， 
图 的 最 小 生成 树 不 会 受到 影响 。 

4.3.2 夯 出 图 4.3.16 中 的 所 有 最 小 生成 树 (所 有 边 的 权重 均 相 等 ) 。 

4.3.3 证 明 当 图 中 所 有 边 的 权重 均 不 相同 时 图 的 最 小 生成 树 是 唯一 的 。 

4.3.4 证 明 或 给 出 反例 : 仅 当 加 权 无 向 图 中 所 有 边 的 权重 均 不 相同 时 图 的 最 小 生成 图 43.16 
树 是 唯一 的 。 





4.3.13 


4.3.14 


4.3.15 


4.3.16 


4.3.17 
4.3.18 


4.3.19 


4.3.20 


4.3.21 
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证 明 即 使 存在 权重 相同 的 边 贪心 算法 仍然 有 效 。 
从 tinyEWG.txt 中 (请 见 图 4.3.1 ) 删 去 顶点 7 并 给 出 加 权 图 的 最 小 生成 树 。 
如 何 得 到 一 幅 加 权 图 的 最 大 生成 树 ? 
证 明 环 的 性 质 : 任 取 一 幅 加 权 图 中 的 一 个 环 ( 边 的 权重 各 不 相同 ) ， 环 中 权重 最 大 的 边 必然 不 属 
于 图 的 最 小 生成 树 。 
根据 Graph 中 的 构造 函数 ( 请 见 4.1.2.2 框 注 “Graph 数据 类 型 ”) 为 EdgeWeighted Graph 实现 
一 个 相应 构造 函数 ， 从 输入 流 中 读 取 一 幅 图 。 
为 稠密 图 实现 EdgeWeightedGraph, 使 用 邻接 矩阵 ( 存储 权重 的 二 维 数组 ) , 不 允许 存在 平行 边 。 
使 用 1.4 节 中 的 内 存 使 用 模型 评估 用 EdgeweightedGraph 表示 一 幅 含 有 上 个 顶点 和 已 条 边 的 图 
所 需 的 内 存 。 
假设 加 权 图 中 的 所 有 边 的 权重 都 不 相同 ， 其 中 权重 最 小 的 边 一 定 属于 图 的 最 小 生成 树 吗 ? 权重 
最 大 的 边 可 能 属于 图 的 最 小 生成 树 吗 ? 任意 环 中 的 权重 最 小 边 都 属于 图 的 最 小 生成 树 吗 ? 证 明 
你 的 每 个 回答 或 者 给 出 相应 的 反例 。 
给 出 一 个 反例 证 明 以 下 策略 不 一 定 能 够 找到 图 的 最 小 生成 树 : 首先 以 任意 顶点 作为 图 的 最 小 生 
成 树 ， 然 后 向 树 中 添加 -1 条 达 ， 每 次 总 是 添加 依附 于 最 近 加 入 最 小 生成 树 的 顶点 的 所 有 边 中 
的 权重 最 小 者 。 
给 定 一 幅 加 权 图 G 以 及 它 的 最 小 生成 树 。 从 G 中 删 去 一 条 边 且 G 仍然 是 连通 的 ， 如 何在 与 巨 成 
正比 的 时 间 内 找到 新 图 的 最 小 生成 树 。 
给 定 一 幅 加 权 图 G 以 及 它 的 最 小 生成 树 。 向 G 中 添加 一 条 边 e， 如 何在 与 成 正比 的 时 间 内 找 
到 新 图 的 最 小 生成 树 。 
给 定 一 幅 加 权 图 G 以 及 它 的 最 个 生成 树 。 向 G 中 添加 一 条 边 e， 编 写 一 段 程序 找到 e 的 权重 在 
什么 范围 之 内 才 会 被 加 入 最 小 生成 树 。 
为 EdgeWeightedGraph 类 实现 toString() 方法 。 
给 出 使 用 延 时 Prim 算法 、 即 时 Prim 算法 和 Kruskal 算法 在 计算 练习 4.3.6 中 的 图 的 最 小 生成 树 
过 程 中 的 轨迹 。 
假设 你 使 用 的 优先 队列 的 实现 会 维护 一 条 有 序 链表 。 在 最 坏 情况 下 ， 用 Prim 算法 和 Kruskal 算 
法 处 理 一 幅 含有 上 个 项 点 和 巨 条 边 的 加 权 图 的 时 间 增长 数量 级 是 多 少 ?这 种 方法 适用 于 什么 情 
况 ?证明 你 的 结论 。 
真 假 判 断 : 在 Kruskal 算法 的 执行 过 程 中 ， 最 小 生成 树 中 的 每 个 顶点 到 它 的 子 树 中 的 某 个 顶点 的 
距离 比 到 非 子 树 中 的 任意 顶点 都 近 。 证 明 你 的 结论 。 
为 PrimMST 类 ( 请 见 算法 47 ) 实现 edges() 方法 。 
解答 : 


public Iterable<Edge> edges() 
{ 
Bag<Edge> mst = new Bag<Edge>(); 
for (int v = 1; v < edgeTo.length; v++) 
mst.add(edgeTo[v]); 
return mst; 
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图 提高 下 


4.3.22 


4.3.23 


4.3.24 


4.3.25 


4.3.26 


4.3.27 


4.3.28 
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4.3.29 


4.3.30 


4.3.31 


4.3.32 


4.3.33 
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最 小 生成 森林 。 开 发 新 版 本 的 Prim 算法 和 Kruskal 算法 来 计算 一 幅 加 权 图 的 最 小 生成 森林 ， 图 
不 一 定 是 连通 的 。 使 用 4.1 节 中 连通 分 量 的 API 并 找到 每 个 连通 分 量 的 最 小 生成 树 。 

Vyssotsky 算法 。 开 发 一 种 不 断 使 用 环 的 性 质 ( 请 见 练习 4.3.8 ) 来 计算 最 小 生成 树 的 算法 : 每 次 
将 一 条 边 添加 到 假设 的 最 小 生成 树 中 ， 如 果 形 成 了 一 个 环 则 删 去 环 中 权重 最 大 的 边 。 注 意 : 这 
个 算法 不 如 我 们 学 过 的 几 种 方法 引 人 注 意 ， 因 为 很 难 找到 一 种 数据 结构 能 够 有 效 支 持 “ 删 除 环 
中 权重 最 大 的 边 ” 的 操作 。 

北向 删除 算法 。 实 现 以 下 计算 最 小 生成 树 的 算法 : 开始 时 疼 含有 原 图 的 所 有 边 ， 然 后 按照 权重 
大 小 的 降序 排列 遍历 所 有 的 边 。 对 于 每 条 边 ， 如 果 删 除 它 图 仍然 是 连通 的 ， 那 就 删 掉 它 。 证 明 
这 种 方法 可 以 得 到 图 的 最 小 生成 树 。 实 现 中 加 权 边 的 比较 次 数 增长 的 数量 级 是 多 少 ? 

最 坏 情况 生成 器 。 开 发 一 个 加 权 图 生成 器 ， 图 中 含有 个 顶点 和 巨 条 边 ， 使 得 延 时 的 Prim 算法 
所 需 的 运行 时 间 是 非 线性 的 。 对 于 即时 的 Prim 算法 回答 相同 的 问题 。 

关键 边 。 关 键 边 指 的 是 图 的 最 小 生成 树 中 的 某 一 条 边 ， 如 果 删 除 它 ， 新 图 的 最 小 生成 树 的 总 权重 
将 会 大 于 原 最 小 生成 树 的 总 权重 。 找 到 在 ElogE 时 间 内 找 出 图 的 关键 边 的 算法 。 注 意 ; 这 个 问题 
中 边 的 权重 并 不 一 定 各 不 相同 ( 否则 最 小 生成 树 中 的 所 有 边 都 是 关键 边 ) 。 

动画 。 编 写 一 段 程序 将 最 小 生成 树 算法 用 动画 表现 出 来 。 用 程序 处 理 mediumEWG.txt 来 产生 类 
似 于 图 4.3.12 和 图 4.3.14 的 示意 图 。 

空间 最 优 的 数据 结构 。 实 现 另 一 个 版 本 的 延 时 Prim 算法 ， 在 EdgeWeightedGraph 和 MinPQ 中 
使 用 低级 数据 结构 代替 Bag 和 Edge 来 节省 空间 。 根 据 1.4 节 中 的 内 存 使 用 模型 用 一 个 V 和 EE 的 
函数 评估 节省 的 内 存 总 量 ( 参考 练习 4.3.11 ) 。 

笛 密 图 。 实 现 另 一 个 版 本 的 Prim 算法 ， 即 时 ( 但 不 使 用 优先 队列 ) 且 能 够 在 天 次 加 权 边 比较 之 
内 得 到 最 小 生成 树 。 

欧 拉 加 权 图 。 修 改 你 为 练习 4137 给 出 的 解答 ， 为 平面 图 创建 一 份 APF 一 Euclidean 
EdgeWeightedGraph， 这 样 你 就 能 够 处 理 用 图 形 表示 的 图 了 。 

最 小 生成 树 的 权重 。 为 LazyPrimMST、PrimMST 和 Kruska1MST 实现 weight() 方法 ， 使 用 延 时 
策略 ， 只 在 被 调用 时 才 遍 历 最 小 生成 树 的 所 有 边 来 计算 总 权重 。 然 后 用 即时 策略 再 次 实现 这 个 
方法 ， 在 计算 最 小 生成 树 的 过 程 中 维护 一 个 动态 的 总 权重 。 

指定 的 集合 。 给 定 一 幅 连 通 的 加 权 图 G 和 一 个 边 的 集合 5 ( 不 含 环 ) ， 给 出 一 种 算法 得 到 含有 5 
中 的 所 有 边 的 最 小 加 权 生成 树 。 

验证 。 编 写 一 个 使 用 最 小 生成 树 算法 以 及 EdgeWeightedGraph 类 的 方法 check() ， 使 用 以 下 根 
据 命 题 ] 得 到 的 最 优 切 分 条 件 来 验证 给 定 的 一 组 边 就 是 一 棵 最 小 生成 树 : 如 果 给 定 的 一 组 边 是 一 
棵 最 小 生成 树 ， 且 删除 树 中 的 任意 边 得 到 的 切 分 中 权重 最 小 的 横 切 边 正 是 被 删除 的 那 条 边 ， 则 
这 最 小 生成 一 组 边 就 是 图 的 最 小 生成 树 。 你 的 方法 的 运行 时 间 的 增长 数量 级 是 多 少 ? 


图 实验 是 


4.3.34 


随机 稀疏 加 权 图 。 基 于 你 为 练习 4.1.41 给 出 的 解答 编写 一 个 随机 稀疏 加 权 图 生成 器 。 在 赋予 边 
的 权重 时 , 定义 一 个 随机 加 权 有 向 图 的 抽象 数据 结构 并 给 出 两 种 实现 : 一 种 按 均匀 分 布 生成 权重 ， 
另 一 种 按 高 斯 分 布 生成 权重 。 编 写 用 例 程序 ， 用 两 种 权重 分 布 和 一 组 精心 挑选 过 的 和 的 值 


4.3.35 
4.3.36 
4.3.37 


4.3.38 


4.3.39 


4.3.40 


4.3.41 


4.3.42 


4.3.43 


4.3.44 


4.3.45 
4.3.46 
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生成 随机 的 稀疏 加 权 图 ， 使 得 我 们 可 以 用 它 对 权重 的 各 种 分 布 进 行 有 意义 的 经 验 性 测试 。 
随机 欧 拉 加 权 图 。 修 改 你 为 练习 4.1.42 给 出 的 解答 ， 将 每 条 边 的 权重 设 为 顶点 之 间 的 距离 。 
随机 网 格 加 权 图 。 修 改 你 为 练习 4.1.43 给 出 的 解答 ,将 每 条 边 的 权重 设 为 0 到 1 之 间 的 随机 值 。 
真实 世界 中 的 加 权 图 。 从 网 上 找 出 一 幅 巨型 加 权 无 向 图 一 一 可 以 是 标注 了 距离 的 地 图 ， 或 是 标 
明了 资费 的 电话 黄页 ， 或 是 航线 的 价目 表 。 编 写 一 段 程序 RandomRea1EdgeweightedGraph， 从 
这 些 顶 点 构成 的 子 图 中 随机 选取 个 项 点， 然后 再 从 这 些 顶 点 构成 的 子 图 中 随机 选取 已 条 边 来 
构造 一 幅 图 。 

测试 所 有 的 算法 并 研究 所 有 图 的 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 
程序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 
实验 。 你 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结果 以 及 由 此 得 出 的 任 
何 结论 。 

延 时 的 代价 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 比较 Prim 算法 的 延 时 版 本 和 即时 版 本 的 
性 能 差异 。 

对 比 Prim 算法 与 Kruskal 算法 。 运 行 实验 并 根据 经 验 比较 Prim 算法 的 延 时 版 本 和 即时 版 本 与 
Kruskal 算法 的 性 能 差异 。 

减少 开销 。 运 行 实验 并 根据 经 验 判断 练习 4.3.28 中 在 EdgeweightedGraph 类 中 使 用 原始 数据 类 
型 代替 Edge 所 带 来 的 效果 。 

最 小 生成 树 中 的 最 长 边 。 运 行 实验 并 根据 经 验 分 析 最 小 生成 树 中 最 长 边 的 长 度 以 及 图 中 不 长 于 
该 边 的 边 的 总 数 。 

切 分 。 根 据 快 速 排序 的 切 分 思想 ( 而 非 使 用 优先 队列 ) 实现 一 种 新 方法 ， 检 查 Kruskal 算法 中 的 
当前 边 是 否 属于 最 小 生成 树 。 

Boruvka 工法。 实现 Boruvka 算法 ， 和 Kruskal 算法 类 似 ， 只 是 分 阶段 地 向 一 组 森林 中 逐渐 添加 
边 来 构造 一 棵 最 小 生成 树 。 在 每 个 阶段 中 ， 找 出 所 有 连接 两 棵 不 同 的 树 的 权重 最 小 的 边 ， 并 将 
它们 全 部 加 入 最 小 生成 树 。 为 了 避免 出 现 环 ， 假 设 所 有 边 的 权重 均 不 相同 。 提 示 : 维护 一 个 由 
顶点 索引 的 数组 来 辨别 连接 每 棵 树 和 它 最 近 的 邻居 的 边 。 记 得 用 上 union-find 数据 结构 。 

改进 的 Boruvka 算法 。 给 出 Boruvka 算 法 的 另 一 种 实现 , 用 双向 环形 链表 表示 最 小 生成 树 的 子 树 ， 
使 得 子 树 可 以 被 合并 或 改名 ， 每 个 阶段 所 需 的 时 间 与 巨 成 正比 (这 样 就 不 需要 union-find 数据 结 
构 了 ) 。 

外 部 最 小 生成 树 。 如 果 一 幅 图 非常 大 ， 内 存 最 多 只 能 存储 亚 条 边 ， 如 何 计算 它 的 最 小 生成 树 ? 
Johnson 算法 。 使 用 一 个 d 向 堆 实 现 优先 队列 ( 请 见 练习 2.4.41 ) 。 对 于 各 种 图 的 模型 ， 找 到 4 
的 最 优 值 。 
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4.4 ”最 短路 径 

也 许 最 直观 的 图 处 理 问题 就 是 你 常常 需要 使 用 某 种 地 图 软件 或 者 导航 系统 来 获取 从 一 个 地 方 到 
达 另 一 个 地 方 的 路 径 。 我 们 立即 可 以 得 到 与 之 对 应 的 图 模型 :顶点 对 应 交叉 路 口 ， 边 对 应 公路 ， 边 
的 权重 对 应 经 过 该 路 段 的 成 本 ， 可 以 是 时 间或 者 距离 。 如 果 有 单行 线 ， 那 就 意味 着 还 需要 考虑 加 权 
有 向 图 。 在 这 个 模型 中 ， 问 题 很 容易 就 可 以 被 归纳 为 : 

找到 从 一 个 顶点 到 达 另 一 个 顶点 的 成 本 最 小 的 路 径 。 

除了 这 类 问题 的 直接 应 用 ， 最 短路 径 模型 还 适用 于 一 系列 其 他 问题 ( 请 见 表 4.4.1 ) ， 其 中 有 一 
些 看 起 来 似乎 和 图 的 处 理 毫 无 关系 。 举 个 例子 ,我们 会 在 本 节 的 最 后 考虑 金融 学 领域 的 套 汇 问题 。 


表 4.4.1 最 短路 径 的 典型 应 用 





应 用 顶 点 边 

地 图 交叉 路 口 公路 

网 络 路 由 器 网 络 连 接 
任务 调度 任务 优先 级 限制 
套 汇 货币 汇率 


我 们 采用 了 一 个 一 般 性 的 模型 ， 即 加 权 有 向 图 ( 它 是 4.2 节 和 4.3 节 的 模型 的 结合 ) 。 在 4.2 
节 中 我 们 希望 知道 从 一 个 项 点 是 否 可 以 到 达 另 一 个 项 点。 在 本 节 中 ,我 们 会 把 权重 考虑 进来 ， 
就 像 在 4.3 节 中 研究 的 加 权 无 向 图 那样 。 在 加 权 有 向 图 中 ， 每 条 有 向 路 径 都 有 一 个 与 之 关联 的 
路 径 权重 ， 它 是 路 径 中 的 所 有 边 的 权重 之 和 。 这 种 重要 的 度量 方式 使 得 我 们 能 够 将 这 个 问题 归 
纳 为 “找到 从 一 个 项 点 到 达 另 一 个 顶点 的 权重 最 小 的 有 向 路 径 ”， 也 就 是 本 节 的 主题 。 图 4.4.1 





就 是 一 个 示例 。 
加 权 有 向 图 
定义 。 在 一 幅 加 权 有 向 图 中 ， 从 顶点 s 到 顶点 的 a 0 
最 短路 径 是 所 有 从 s 到 t 的 路 径 中 的 权重 最 小 者 。 be 
5->7 
本 节 中 ， 我们 将 会 学 习 解决 下 面 这 个 问题 的 经 典 5 
算法 。 0 0.26 0 到 顶点 
单 点 最 短路 径 。 给 定 一 帐 加 权 有 向 图 和 一 个 起 点 s， 7->3 0.39 人 
回答 “从 s 到 给 定 的 目的 顶点 v 是 否 存在 一 条 有 向 路 了 3 0 922 0.26 
径 ? 如 果 有 ， 找 出 最 短 ( 总 权重 最 小 ) 的 那 条 路 径 。" 522 0-40 7 9:3 
->6 0.52 
等 类 似 问题 。 6->0 0.58 56 忒 下 
我 们 计划 在 本 节 中 讨论 下 列 问题 : ee 
口 加 权 有 向 图 的 API 和 实现 以 及 单 点 最 短路 径 的 图 4.4.1 一 幅 加 权 有 向 图 和 其 中 的 一 条 
API; 最 短路 径 


口 解决 边 的 权重 非 负 的 最 短路 径 问题 的 经 典 Dijkstra 算法 ; 

口 在 无 环 加 权 有 向 图 中 解决 该 问题 的 一 种 快速 算法 ， 边 的 权重 甚至 可 以 是 负 值 ; 

口 适用 于 一 般 情况 的 经 典 Bellman-Ford 算法 ， 其 中 图 可 以 含有 环 ， 边 的 权重 也 可 以 是 负 值 。 
我 们 还 需要 算法 来 找 出 负 权重 的 环 ， 以 及 不 含有 这 种 环 的 加 权 有 向 图 中 的 最 短路 径 。 

在 学 习 了 这 些 算法 之 后 ， 我 们 还 会 考虑 它们 的 应 用 。 
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4.4.1 最短 路径 的 性 质 
最 短路 径 问题 的 基本 定义 是 很 简单 的 ， 但 这 种 简洁 也 隐藏 了 一 些 在 学 习 相 关 的 算法 和 数据 结构 
之 前 需要 解决 的 问题 。 
口 路 径 是 有 向 的 。 最 短路 径 需 要 考虑 到 各 条 边 的 方向 。 
口 权重 不 一 定 等 价 于 距离 。 几 何 上 的 直觉 可 以 帮 
助 你 理解 算法 ， 因 此 示例 中 的 顶点 都 在 平面 上 
且 权重 为 顶点 之 间 的 欧 拉 距离 ， 例 如 图 44.1 所 
示 的 那 幅 有 向 图 。 但 权重 也 可 以 表示 时 间 、 花 
费 或 是 某 种 完全 无 关 的 东西 ， 也 不 一 定 会 和 距 
离 的 远近 成 正比 。 我 们 使 用 了 双关 性 的 术语 来 





强 测 这 一 点 ， 指 的 是 权重 或 是 点 本 最 短 的 路 径 。 。 os 
口 并 不 是 所 有 顶点 都 是 可 达 的 。 如 果 七 并 不 是 从 2|e2 
s 可 达 的 ， 那 么 就 不 存在 任何 路 径 ， 也 就 不 存 。 | 
在 s 到 t 的 最 短路 径 。 为 了 简化 问题 ,我 们 的 5 
ee 


样 图 都 是 强 连通 的 ( 每 个 顶点 从 另外 任意 一 个 
顶点 都 是 可 达 的 ) 。 

口 负 权 重 会 使 问题 更 复杂 。 我 们 暂时 假设 边 的 权 
重 都 是 正 的 (或 零 ) 。 负 权重 所 带 来 的 意外 效 





omwaewwpe 

















Os 
© 
Oe 
© 
© 
©) 3->6 
ole-»0 227 
HE 
口头 短 路 径 一 般 孝 是 简单 的 。 我 们 的 算法 会 包 略 。 “5 @) 
构成 环 的 零 权重 边 ， 因 此 找到 的 最 短路 径 都 不 。 3|6>。 
会 含有 环 。 se Gy 
口 最 短路 径 不 一 定 是 唯一 的 。 从 一 个 顶点 到 达 另 。 712->7 中 0 
-个 项 点 的 权重 最 小 的 路 径 可 能 有 多 条 ， 我 们 G= 区 
只 要 找到 其 中 一 条 即 可 。 GO sl 
口 可 能 存在 平行 边 和 自 环 : 平行 边 中 的 权重 最 小 @ ee 
者 才 会 被 选中 ,最 短路 径 也 不 可 能 包含 自 环 ( 除 9|5->1 © nes 
韭 自 环 的 权重 为 零 ， 但 我 们 会 忽略 它 ) 。 在 正 。 站- Oc 
文中 ,为 了 避免 歧义 我 们 隐 式 地 假设 平行 边 不 。 454 © 
存在 ,用 v 一 w 来 表示 从 v 到 w 的 边 ,本 节 的 ”53s。 人 
代码 处 理 它们 并 没有 困难 。 ee © yes 
最 短路 径 树 © Gy al 
我 们 的 重点 是 单 点 最 短路 径 问题 ， 其 中 给 出 了 起 @ 4le4 
点 s， 计 算 的 结果 是 一 棵 最 短路 径 树 (SPT)， 它 包含 了 © sl 
顶点 s 到 所 有 可 达 的 顶点 的 最 短路 径 。 如 图 4.42 所 示 。 |s->0 © 2 
z|e->z ©) 
3|7->3 GO) 一 
定义 。 给 定 一 幅 加 权 有 向 图 和 一 个 顶点 s， 以 s 为 。 《5 
起 点 的 一 可 最 短路 径 树 是 图 的 一 柱子 图 ， 它 包含 s 。。 中 ->6 人 





和 从 s 可 达 的 所 有 顶点 。 这 棵 有 向 树 的 娄 结 志 为 s， 


树 的 每 条 路 径 都 是 有 向 图 中 的 一 条 最 短路 径 。 
图 4.4.2 最 短路 径 树 ( 另 见 彩 插 ) 
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这 样 一 棵 树 是 一 定 存在 的 : 一 般 来 说 ， 从 s 到 一 个 项 点 有 可 能 存 
在 两 条 长 度 相等 的 路 径 。 如 果 出 现 这 种 情况 ， 可 以 删除 其 中 一 条 路 径 
的 最 后 一 条 边 。 如 此 这 般 ， 直 到 从 起 点 到 每 个 顶点 都 只 有 一 条 路 径 相 
连 ( 即 一 棵 树 ， 请 见 图 4.4.3 ) 。 通 过 构造 这 棵 最 短路 径 树 ， 可 以 为 用 例 
提供 从 s 到 图 中 任何 顶点 的 最 短路 径 ， 表 示 方 法 为 一 组 指向 父 结 点 的 链 
接 ， 和 4.1 节 中 表示 路 径 的 方法 完全 一 样 。 


637| 4.4.2 加 权 有 向 图 的 数据 结构 
加 权 有 向 图 的 数据 结构 比 加 权 无 向 图 的 数据 结构 更 加 简单 ， 因 为 有 


办 起 点 指出 的 过 














图 4.4.3 一 棵 含有 250 


向 边 只 有 一 个 方向 。 与 Edge 类 中 的 eitherQO 和 otherQ 方法 不 同 , 这 个 顶点 的 最 短 
里 定义 了 from() 和 toQ 方法 ,请 见 表 4.4.2。 路 径 树 


表 4.4.2 加权 有 向 边 的 API 
public class DirectedEdge 





DirectedEdge(int v, int w, double weight) 


double weight() 边 的 权重 
int from() 指出 这 条 边 的 顶点 
int toO 这 条 边 指向 的 顶点 
String toStringO) 对 象 的 字符 串 表 示 





从 4.1 节 到 4.3 节 ， 从 Graph 类 过 渡 到 了 EdgeweightedGraph 类 。 与 以 前 一 样 ， 我 们 在 这 里 添 
加 了 edges (0) 方法 并 使 用 DirectedEdge 类 代替 了 整 型 变量 ， 请 见 表 4.4.3。 


表 4.4.3 ”加权 有 向 图 的 API 
public class EdgeweightedDigraph 





EdgeweightedDigraphCint V) 含有 V 个 顶点 的 空 有 向 图 
EdgeweightedDigraph(In in) 从 输入 流 中 读 取 图 的 构造 函数 
int VO 顶点 总 数 
int EO 边 的 总 数 
void addEdge(DirectedEdge e) 将 e 添加 到 该 有 向 图 中 
Iterable<DirectedEdge> adjCint v) 从 v 指 出 的 边 
Iterable<DirectedEdge> edges() 该 有 向 图 中 的 所 有 边 
String toString() 对 象 的 字符 串 表示 


这 两 份 API 的 实现 请 见 后 面 的 框 注 “ 加 权 有 向 边 的 数据 结构 ”和 “加 权 有 向 图 的 数据 结构 ”。 
它们 很 自然 地 扩展 了 4.2 节 和 4.3 节 中 相应 的 类 的 实现 。Digraph 类 中 的 邻接 表 使 用 的 是 整数 ， 在 
EdgeWeightedDigraph 的 邻接 表 中 使 用 的 是 WeightedEdge 对 象 。 与 从 4.1 节 到 4.2 节 中 Graph 类 








到 Digraph 类 的 转换 一 样 ， 从 4.3 节 的 EdgeWeightedGraph 类 到 本 节 中 的 EdgeweightedDigraph 








类 的 转换 代码 也 变 得 简单 了 ， 因 为 在 数据 结构 中 每 条 边 只 会 出 现 一 次 。 
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加 权 有 向 边 的 数据 类 型 
public class DirectedEdge 
{ 
private final int vi // 边 的 起 点 
private final int w; // 边 的 终点 
private final double weight; // 边 的 权重 


} 


public DirectedEdge(int v, int w, double weight) 


this.v = Vi 
this.w = w; 
this.weight = weight; 


public double weight() 


{ 


return weight; } 


public int from() 


{ 


return vi } 


public int toO) 


{ 


return w; } 


public String toStringO) 


{ 


return String.format("%d->%d %.2f", v, w, weight); } 


DirectedEdge 类 的 实现 比 4.3 节 中 无 向 边 的 数据 类 型 Edge 类 ( 请 见 4.3.2 节 框 注 “ 带 权重 的 边 的 
数据 类 型 ”) 更 简单 ， 因 为 边 的 两 个 端点 是 有 区 别 的 。 用 例 可 以 使 用 惯用 代码 int v=e.toC) ，w=e. 


from(); 来 访问 DirectedEdge 的 两 个 端点 。 
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加 权 有 向 图 的 数据 类 型 
public class EdyeWeightedDigraph 
{ 
private final int V; // 顶点 总 数 
private int E // 边 的 总 数 
private Bag<DirectedEdge>[] adj; 。 // 铎 接 表 
public EdgeweightedDigraph(int V) 
{ 
this.V = Vi 
this.E = 0; 
adj = (Bag<DirectedEdge>[]) new Bag[V]; 


} 


for (int v = 0; v < Vi v++) 
adj[v] = new Bag<DirectedEdge>(); 


pubiic EdgeweightedDigraph(In in) 


A 


该 见 际 习 4 于 :2 


public int VO { return V; 
public int EC) { return E; } 
public void addEdge(DirectedEdge e) 


t 


adj[e.from()].addCe); 
Ee 


pubTic IterablezEdge> adjCint v) 
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return adj[v]; 
public Iterable<DirectedEdge> edgesO 


Bag<DirectedEdge> bag -= Bag-DirectedEdge> (); 








for (int v= 0; v<V;v 
for (DirectedEdge e : adj[v 
bag.add(e); 
return bag; 


} 
} 
EdgeWeightedDigraph 类 的 实现 混合 了 EdgeWeightedGraph 类 和 Digraph 类 。 它 维护 了 一 个 由 顶 
点 索引 的 Bag 对 象 的 数组 ，Bag 对 象 的 内 容 为 DirectedEdge 对 象 。 与 Digraph 类 一 样 ， 每 条 边 在 邻接 
表 中 只 会 出 现 一 次 : 如 果 一 条 边 从 v 指向 w， 那 么 它 只 会 出 现在 v 的 邻接 链表 中 。 这 个 类 可 以 处 理 自 环 
和 平行 边 。toString() 方法 的 实现 留 作 练习 4.4.2。 
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图 4.4.4 所 示 的 是 用 EdgeweightedDigraph 表示 左 侧 的 加 权 有 向 图 时 所 构造 的 数据 结构 ， 在 构造 
的 过 程 中 边 被 按照 顺序 一 条 一 条 地 加 入 图 中 。 与 以 前 一 样 ， 我 们 使 用 了 Bag 类 来 表示 邻接 表 并 在 图 中 
按照 标准 方式 将 它们 表示 为 链表 。 与 42 节 中 普通 的 有 向 图 一 样 ,每 条 边 在 数据 结构 中 都 只 出 现 了 一 次 。 
































































































































tinyEWD. txt 
一 8 0]41.38 
15275 
45 0.35 adj[] ~[T3L29 
5 4 0.35 of 
47 0.37 
57 0.28 1 2 re 
7 5 0.28 2 
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0 + 8: 半 3 [02 DirectedEdge 
0 2 0.26 4 ST 对 象 的 引用 
7 3 0.39 站 。 R | 
1 3 0.29 
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~[7131.39 上 [7[5].28 





























图 4.4.4 ”加权 有 向 图 的 表示 


4.4.2.1 最短 路径 的 API 
对 于 最 短路 径 的 API, 我 们 的 设计 思路 与 4.1 节 中 的 DepthFirstPaths 和 BreadthFirstPaths 
的 API 是 一 样 的 。 算 法 将 会 实现 表 4.4.4 所 示 的 API 来 为 用 例 提供 图 中 的 最 短路 径 和 其 长 度 。 


表 4.4.4 ”最 短路 径 的 API 


public class SP 
SPCEdgeweightedDigraph G，int s) 。 构造 函数 





double distToCint v) 从 顶点 s 到 v 的 距离 ， 如 果 不 存 在 
则 路 径 为 无 穷 大 
boolean hasPathToCint v) 是 否 存在 从 顶点 s 到 v 的 路 径 
Iterable<Direc-tedEdge> pathToCint v) 从 顶点 s 到 v 的 路 径 ， 如 果 不 存在 


则 为 nu11 





构造 函数 会 创建 最 短路 径 树 
并 计算 最 短路 径 的 长 度 ， 其 他 查 
询 方法 则 会 使 用 这 些 数 据 结构 为 
用 例 提 供 路 径 的 长 度 以 及 路 径 的 
Iterable 对 象 。 
4.4.2.2 ”测试 用 例 

右 侧 框 注 是 一 个 简单 测试 用 
例 。 它 接受 一 个 输入 流 和 一 个 起 
点 作为 命令 行 参数 ， 从 输入 流 中 
读 取 加 权 有 向 图 ， 根 据 起 点 来 计 
算 有 向 图 的 最 短路 径 树 并 打印 从 
起 点 到 其 他 所 有 顶点 的 最 短路 径 。 
我 们 约定 ， 所 有 的 最 短路 径 实现 
都 使 用 该 测试 用 例 进行 测试 。 在 
下 面 的 框 注 中 使 用 了 tinyEWD.txt 
文件 ， 它 定义 了 一 幅 较 小 的 样 图 
中 所 有 的 边 和 权重 ,会 用 来 显示 
最 短路 径 算法 的 详细 轨迹 。 它 的 
文件 格式 与 最 小 生成 树 算法 中 使 
用 的 样 图 相同 : 首先 
和 边 的 总 数 EE， 
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public static void main(String[] args) 


EdgeweightedDigraph G; 

G = new EdgeweightedDigraph(new InCargs[0])); 
int s = Integer.parseInt(args[1]); 

SP sp = new SP(G, s); 


for (int t = 0; t < G.VO; t++) 

{ 
StdOut.print(s + "to " + t); 
StdOut.printf(” (%4.2f): ", sp.distTo(t)); 
if (sp.hasPathTo(t)) 

for (DirectedEdge e : sp.pathTo(t)) 
StdOut.print(e + " "); 

StdOut.print1n(); 


} 


% java SP tinyEWD.txt 0 
0 to 0 (0.00): 
0 to 1 (1.05): 
0 to 2 (0.26): 
0 to 3 (0.99): 
0 to 4 (0.38): 
0 to 5 (0.73): 
0 to 6 (1.51): 
0.52 

0 to 7 (0.60): 


0->4 0.38 
0->2 0.26 
0->2 0.26 
0->4 0.38 
0->4 0.38 
0->2 0.26 


4->5 0.35 5->1 0.32 


2->7 0.34 7->3 0.39 


4->5 0.35 


2->7 0.34 7->3 0.39 3->6 


0->2 0.26 2->7 0.34 


最 短路 径 的 测试 用 例 
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每 一 行为 两 个 顶点 的 索引 和 一 个 权重 。 在 本 书 的 网 站 上 ， 你 可 以 找到 一 些 定义 了 更 大 的 加 权 有 向 图 
的 文件 ， 包 括 mediumEWG.txt。 它 定义 了 一 幅 含 有 250 个 顶点 的 加 权 有 向 图 ， 如 图 4.4.3 所 示 。 在 
这 幅 图 的 图 像 中 ， 每 一 行 数据 都 表示 方向 相反 的 两 条 边 ， 因 此 这 个 文件 所 含有 的 边 数 是 在 学 习 最 小 
生成 树 时 所 使 用 的 mediumEWG.txt 的 2 倍 。 在 最 短路 径 树 的 图 像 中 ， 每 一 行 都 表示 一 条 从 顶点 指 
出 的 有 向 边 。 

4.4.2.3 ”最 短路 径 的 数据 结构 





表示 最 短路 径 所 需 的 数据 结构 很 简单 ， 如 edgeTo[] ~ distTo[] 
图 4.4.5 所 示 。 arrO-Q 3] S204 Los 
口 最 短路 径 村 中 的 边 。 和 深度 优先 搜索 、 OO 引 2723 
广度 优先 搜索 和 Prim 算法 一 样 ,使 用 一 。 ; (©) A 
个 由 顶点 索引 的 DirectedEdge 对 象 的 。 人 Os 


父 链接 数组 edgeTo[] ， 其 中 edgeTo[v] 
的 值 为 树 中 连接 v 和 它 的 父 结 点 的 边 ( 也 
是 从 s 到 v 的 最 短路 径 上 的 最 后 一 条 边 ) 。 
口 到 达 起 点 的 距离 。 我 们 需要 一 个 由 项 点 索引 的 数组 distTo[] ， 其 中 distTo[v] 为 从 s 到 v 
的 已 知 最 短路 径 的 长 度 。 
我 们 约定 ，edgeTo[s] 的 值 为 nu11，distTo[s] 的 值 为 0。 同 时 还 约定 ， 从 起 点 到 不 可 达 的 
顶点 的 距离 均 为 Double.POSITIVE_INFINITY。 和 以 前 一 样 ， 我 们 会 实现 使 用 这 些 数据 结构 的 数据 
类 型 并 支持 用 例 调用 方法 来 查询 最 短路 径 和 它们 的 长 度 。 


4.4.5 最 短路 径 的 数据 结构 
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4.4.2.4 边 的 松弛 

我 们 的 最 短路 径 API 的 实现 都 基于 
一 个 被 称 为 松弛 (relaxation ) 的 简单 操作 。 
一 开始 我 们 只 知道 图 的 边 和 它们 的 权 
重 ，distTo[] 中 只 有 起 点 所 对 应 的 元 素 
的 值 为 0， 其余 元 素 的 值 均 被 初始 化 为 
Double.POSITIVE_INFINITY。 随 着 算 
法 的 执行 ， 它 将 起 点 到 其 他 顶点 的 最 短 


private void relax(DirectedEdge e) 


int v = e.from), w = e.toO; 
if (distTo[w] > distTo[v] + e.weightO) 
{ 


distTo[w] = distTo[v] + e.weightO; 
edgeTo[w] = e; 
于 
} 


边 的 松弛 
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路 径 信息 存 人 了 edgeTo[] 和 distTo[] 
数组 中 。 在 遇 到 新 的 边 时 ， 通 过 更 新 这 些 信息 就 可 以 得 到 新 的 最 短路 径 。 特 别 是 ， 我 们 在 其 中 会 用 
到 边 的 松弛 技术 ， 定 义 如 下 : 放松 边 v 一 w 意味 着 检查 从 s 到 w 的 最 短路 径 是 否 是 先 从 s 到 v， 然 
后 再 由 v 到 w。 如 果 是 ， 则 根据 这 个 情况 更 新 数据 结构 的 内 容 。 上 边框 注 中 的 代码 实现 了 这 个 操作 。 
由 v 到 达 w 的 最 短路 径 是 distTo[v] 与 e.weight() 之 和 一 一 如 果 这 个 值 不 小 于 distTo[w] ， 称 这 
条 边 失效 了 并 将 它 忽 略 ; 如 果 这 个 值 更 小 ， 就 更 新 数据 。 

图 4446 显示 的 是 边 的 放松 操作 之 后 可 能 出 现 的 两 种 情况 。 一 种 情况 是 边 失效 (左边 的 例子 ) ,不 
更 新 任何 数据 ; 另 一 种 情况 是 v 一 w 就 是 到 达 w 的 最 短路 径 ( 右边 的 例子 ) ， 这 将 会 更 新 edgeTo[w] 
和 distTo[w] (这 可 能 会 使 另 一 些 边 失效 ， 但 也 可 能 产生 一 些 新 的 有 效 边 ) 。 松 弛 这 个 术语 来 自 于 用 
一 根 橡皮 筋 沿 着 连接 两 个 顶点 的 路 径 紧 紧 展 开 的 比喻 ， 放松 一 条 边 就 类 似 于 将 橡皮 筋 转移 到 一 条 更 短 
的 路 径 上 ， 从 而 缓解 了 橡皮 筋 的 压力 。 如 果 relaxO 改变 了 和 边 e 相关 的 顶点 的 distTo[e.toQ] 和 
edgeTo[e.to0)] 的 值 ， 就 称 e 的 放松 是 成 功 的 。 


Vw 失效 


oy [v] V 一 w 是 有 效 的 


oo 一? ww 的 权重 为 1.3 ec 
OO 一 @3: 站 了 O72 
edgero 2 distTo[w] de de 
AS @ 。_ 不 更 新 数据 ac edgeTo[w] 
O ? ? 4.4 
od tb ”入 不 本 存放 最 


短路 径 树 中 
图 4.4.6 边 的 松弛 的 两 种 情况 ( 另 见 彩 插 ) 


4.4.2.5 顶点 的 松弛 

实际 上 ， 实 现 会 放松 从 一 个 给 定 顶 点 指出 的 所 有 边 ， 如 下 页 框 注 中 ( 被 重 载 的 ) relax() 的 实 
现 所 示 。 注 意 ， 从 任意 distTo[v] 为 有 限 值 的 顶点 v 指 向 任意 distT[] 为 无 穷 的 顶点 的 边 都 是 有 
效 的 。 如 果 v 被 放松 ， 那 么 这 些 有 效 边 都 会 被 添加 到 edgeTo[] 中 。 某 条 从 起 点 指出 的 边 将 会 是 第 
一 条 被 加 入 edgeTo[] 中 的 边 。 算 法 会 谨慎 选择 顶点 ， 使 得 每 次 顶点 松弛 操作 都 能 得 出 到 达 某 个 顶 
点 的 更 短 的 路 径 ， 最 后 逐渐 找 出 到 达 每 个 顶点 的 最 短路 径 。 如 图 4.4.7 所 示 。 
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private void relax(EdgeweightedDigraph G, int v) DO- oO 
§ 
for (DirectedEdge e : G.adj(v)) @ i ~ 
{ 


int w = e.toO; 7 


if (distTo[w] > distTo[v] + e.weight()) OO 
{ 
distTo[w] = distTo[v] + e.weight(); 放松 后 
edgeTo[w] = ef O— Oo 然 无 效 
} eC 
1 QO 
器 效 
顶点 的 松弛 O 


图 4.4.7 顶点 的 松弛 [648] 





4.4.2.6 为 用 例 准备 的 查询 方法 
与 4.1 节 (以 及 练习 4.1.13 ) 中 实现 路 径 查找 的 API 相似 ，edgeTo[] 和 distTo[] 数组 直接 支 
持 pathTo()、hasPathTo() 和 distTo() 查询 方法 ， 如 下 方 框 注 所 示 。 默认 所 有 最 短路 径 的 实现 
都 包含 这 段 代 码 。 前 面 已 经 提 到 过 ， 只 有 在 v 是 从 s 可 达 的 情况 下 ，distTo[v] 才 是 有 意义 的 ， 
还 已 经 约定 ， 对 于 从 s 不 可 达 的 顶点 ，distTo() 方法 都 应 该 返回 无 穷 大 。 在 实现 这 个 约定 时 ， 将 
distTo[] 中 的 所 有 元 素 都 初始 化 为 Double.POSITIVE_ 





最 短路 径 树 。 ‘edgeTo[] 
INFINITY, distTo[s] 则 为 0。 最 短路 径 算法 会 将 从 起 点 ©O-@,) i et 
可 达 的 顶点 v 的 distTo[v] 设 为 一 个 有 限 值 ， 这 样 就 不 “(9 OZ / ?| 022 
必 再 用 marked[] 数组 来 在 图 的 搜索 中 标记 可 达 的 顶点 ， © “| gs4 
而 是 通过 检测 distTo[v] 是 否 为 Double.POSITIVE_ 4 (© | 326 





INFINITY 来 实现 hasPathTo(v)。 对 于 pathTo() 方法 ， 
我 们 约定 如 果 v 不 是 从 起 点 可 达 的 则 返回 nu11， 如 果 v 
等 于 起 点 则 返回 一 条 不 含 任何 边 的 路 径 。 对 于 可 达 的 顶 
点 ， 我 们 会 遍历 最 短路 径 树 并 返回 栈 上 的 所 有 边 ， 这 和 
DepthFirstPaths 以 及 BreadthFirstPaths 的 做 法 完全 
一 样 。 图 4.4.8 显示 了 在 示例 中 路 径 0 一 2 一 7 一 3 一 6 。。 图 448 pathTo() 方法 的 计算 轨迹 
是 如 何 被 找到 的 。 





0->2 2->7 7->3 3->6 


public double distToCint v) 
{ return distTo[v]; } 


public boolean haspathTo(int v) 
{ return distTo[v] < Double.POSITIVE_INFINITY; } 


public Iterable<DirectedEdge> pathTo(int v) 
{ 


if (!haspathTo(v)) return null; 

Stack<DirectedEdge> path = new Stack<DirectedEdge>(); 

for (DirectedEdge e = edgeTo[v]; e != null; e = edgeTo[e. from()]) 
path.push(e); 

return path; 


最 短路 径 API 中 的 查询 方法 
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4.4.3 ”最 短路 径 算 法 的 理论 基础 

边 的 放松 操作 是 一 项 非常 容易 实现 的 重要 操作 ， 它 是 实现 最 短路 径 算法 的 基础 。 同 时 ， 它 也 是 
理解 这 个 算法 的 理论 基础 并 使 我 们 能 够 完整 地 证 明 算法 的 正确 性 。 
4.4.3.1 最 优 性 条 件 

以 下 命题 证 明了 判断 路 径 是 否 为 最 短路 径 的 全 局 条 件 与 在 放松 一 条 边 时 所 检测 的 局 部 条 件 是 等 
价 的 。 


命题 P (最 短路 径 的 最 优 性 条 件 ) 。 令 G 为 一 幅 加 权 有 向 图 ， 顶点 s 是 G 中 的 起 点 ， 
由 stTo[] 是 一 个 由 顶点 索引 的 数组 ， 保 存 的 是 G 中 路 径 的 长 度 。 对 于 从 s 可 达 的 所 有 顶点 v， 
distTo[v] 的 值 是 从 s 到 v 的 某 条 路 径 的 长 度 ， 对 于 从 s 不 可 达 的 所 有 顶点 v， 该 值 为 无 穷 大 。 
当 且 仅 当 对 于 从 v 到 w 的 任意 一 条 边 e， 这 些 值 都 满足 distTo[w]<=distTo[v]+e.weight() 
时 〔 换 名 话说 ， 不 存在 有 效 边 时 ) ， 它 们 是 最 短路 径 的 长 度 。 


证 明 。 假 设 distTo[w] 是 从 s 到 w 的 最 短路 径 。 如 果 对 于 某 条 从 v 到 w 的 边 e 有 distTo[w]> 
distTo[v]+e.weight()， 那 么 从 s 到 w( 经 过 v) 且 经 过 e 的 路 径 的 长 度 必 然 小 于 
distTo[w] ， 矛盾。 因此 最 优 性 条 件 是 必要 的 。 

要 证 明 最 优 性 条 件 是 充分 的 ,假设 w 是 从 s 可 达 的 且 s=v 一 Vi 一 vi. 一 vi<w 是 从 s 到 w 的 
最 短路 径 ， 基 权重 为 OPTsw。 对 于 1 到 k 之 同 的 i, 令 es 表示 vis 到 v, 的 边 。 根 据 最 优 性 条 件 ， 
可 以 得 到 以 下 不 等 式 : 


distTo[w] = distTo[v] <= distTo[v.s] + er.weightO) 
distTo[ve] <= distTo[v,] + ers.weight() 


distTo[v] <= distTo[v] + e,.weight() 
distTo[v] <= distTo[s] + ei.weight() 


综合 这 些 不 等 式 并 去 掉 distTo[s]=0.0， 得 到 : 
distTo[w] <= ei.weight() + ... + ei-weightO = OPTs- 


现在 ，distTo[w] 为 从 s 到 w 的 某 条 边 的 长 度 ， 因 此 它 不 可 能 比 最 短路 径 更 短 。 所 以 以 下 等 式 
必然 成 立 。 


OPTw <= distTo[w] <= OPTw 


4.4.3.2 验证 

命题 P 的 一 个 重要 的 实际 应 用 是 最 短路 径 的 验证 。 无 论 一 种 算法 会 如 何 计算 distTo[] ， 都 只 
需要 遍历 图 中 的 所 有 边 一 遍 并 检查 最 优 性 条 件 是 否 满足 就 能 够 知道 该 数组 中 的 值 是 否 是 最 短路 径 的 
长 度 。 最 短路 径 的 算法 可 能 会 很 复杂 ,因此 能 够 快速 验证 计算 的 结果 就 变 得 很 重要 。 为 此 ， 我 们 在 
本 书 的 网 站 上 的 实现 中 包含 了 一 个 check() 方法 。 该 方法 还 会 检查 edgeTo[] 指明 的 路 径 并 验证 它 
与 distTo[] 是 否 一 致 。 
4.4.3.3 ”通用 算法 

由 最 优 性 条 件 马 上 可 以 得 到 一 个 能 够 涵盖 已 经 学 习 过 的 所 有 最 短路 径 算法 的 通用 算法 。 现 在 ， 
我 们 暂时 只 研究 非 负 权重 的 情况 。 
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命题 Q (通用 最 短路 径 算法 ) 。 将 distTo[s] 初始 化 为 0, 其 他 istTo[] 元 素 初始 化 为 无 穷 大 ， 
继续 如 下 操作 : 

放松 G 中 的 任意 边 ， 直 到 不 存在 有 效 边 为 止 。 
对 于 任意 从 s 可 达 的 顶点 w， 在 进行 这 些 操作 之 后 ，distTo[w] 的 值 即 为 从 s 到 w 的 最 短路 径 
的 长 度 ( 且 edgeTo[w] 的 值 即 为 该 路 径 上 的 最 后 一 条 边 ) 。 


证 明 。 放 松 边 v 一 w 必 然 会 将 distTo[w] 的 值 设 为 从 s 到 w 的 某 条 路 径 的 长 度 ( 且 将 
edgeTo[w] 设 为 该 路 径 上 的 最 后 一 条 边 ) 。 对 于 从 s 可 达 的 任意 顶点 w， 只 要 distTo[w] 仍然 
是 无 穷 大 ， 到 达 w 的 最 短路 径 上 的 菜 条 边 肯 定 仍然 是 有 效 的 ， 因 此 算法 的 操作 会 不 断 继 续 ， 直 
到 由 s 可 达 的 每 个 顶点 的 distTo[] 值 均 变 为 到 达 该 顶点 的 某 条 路 径 的 长 度 。 对 于 已 经 找到 最 
短路 径 的 任意 顶点 v， 在 算法 的 计算 过 程 中 distTo[v] 的 值 都 是 从 s 到 v 的 某 条 (简单 ) 路 径 
的 长 度 且 必然 是 单调 递减 的 。 因 此 ， 它 递减 的 次 数 必然 是 有 限 的 (每 切换 一 条 s 到 v 简单 路 径 
就 递减 一 次 ) 。 当 不 存在 有 效 边 的 时 候 ， 命 题 P 就 成 立 了 。 


将 最 优 性 条 件 和 通用 算法 放 在 一 起 学 习 的 关键 原因 是 ， 通 用 算法 并 没有 指定 边 的 放松 顺序 。 因 
此 ， 要 证 明 这 些 算法 都 能 通过 计算 得 到 最 短路 径 ， 只 需 证 明 它 们 都 会 放松 所 有 的 边 直到 所 有 边 都 失 
效 即 可 。 


4.4.4 ”Dijkstra 算法 

在 43 节 中 ， 我 们 讨论 了 寻找 加 权 无 向 图 中 的 最 小 生成 树 的 Prim 算法 :构造 最 小 生成 树 的 每 一 步 
都 向 这 棵 树 中 添加 一 条 新 的 边 。Dijkstra 算法 采用 了 类 似 的 方法 来 计算 最 短路 径 树 。 首 先 将 distTo[s] 
初始 化 为 0，distTo[] 中 的 其 他 元 素 初始 化 为 正 无 穷 。 然 后 将 distTo[] 最 小 的 非 树 顶 点 放松 并 加 入 树 
中 ， 如 此 这 般 ， 直 到 所 有 的 顶点 都 在 树 中 或 者 所 有 的 非 树 顶 点 的 istTo[] 值 均 为 无 穷 大 。 





命题 R。Dijkstra 算法 能 够 解决 边 权 重 非 负 的 加 权 有 向 图 的 单 起 点 最 短路 径 问 题 。 


证 明 。 如 果 v 是 从 起 点 可 达 的 ， 那 么 所 有 v 一 w 的 边 都 只 会 被 放松 一 次 。 当 v 被 放松 时 ， 必 有 
distTo[w]<=distTo[v]+e.weight()。 该 不 等 式 在 算法 结束 前 都 会 成 立 ， 因 此 distTo[w] 只 
会 变 小 ( 放松 操作 只 会 减 小 distTo[] 的 值 ) 而 distTo[v] 则 不 会 改变 ( 因为 边 的 权重 非 负 且 
在 每 一 步 中 算法 都 会 选择 distTo[] 最 小 的 顶点 ， 之 后 的 放松 操作 不 可 能 使 任何 distTo[] 的 
值 小 于 distTo[v] ) 。 因 此 ， 在 所 有 从 s 可 达 的 顶点 均 被 添加 到 树 中 之 后 ， 最 短路 径 的 最 优 性 
条 件 成 立 ， 即 命题 了 成立。 


4.4.4.1 数据 结构 

要 实现 Dijkstra 算法 ， 除 了 distTor] 和 edgeTo[] 数组 之 外 还 需要 一 条 索引 优先 队列 pq， 以 
保存 需要 被 放松 的 顶点 并 确认 下 一 个 被 放松 的 顶点 。 我 们 知道 ndexMinPQ 可 以 将 索引 和 键 ( 优先 级 ) 
关联 起 来 并 且 可 以 删除 并 返回 优先 级 最 低 的 索引 。 在 这 里 ， 只 要 将 顶点 v 和 distTo[v] 关联 起 来 
就 立即 可 以 得 到 Dijkstra 算法 的 实现 。 另 外 ， 稍 加 推导 也 可 以 知道 ， edgeTo[] 中 的 元 素 所 对 应 的 可 
达 顶 点 构成 了 一 棵 最 短路 径 树 。 
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4.4.4.2 ， 换 一 个 角度 看 问题 
根据 算法 的 证 明 ， 我 们 可 以 从 另 一 个 角度 来 最 生路 和 村 

理解 它 ， 如 图 4.4.9 所 示 ， 已 知 树 结 点 所 对 应 的 多 模 切 边 (红色 ) 

distTo[] 值 均 为 最 短路 径 的 长 度 。 对 于 优先 队列 


中 的 任意 顶点 w，distTo[w] 是 从 s 到 w 的 最 短 


路 径 的 长 度 ， 该 路 径 上 的 所 有 顶点 均 在 树 中 且 路 的 
径 上 的 最 后 一 条 边 为 edgeTo[w]。 优 先 级 最 小 的 X 

顶点 的 distTo[] 值 就 是 最 短路 径 的 权重 ， 它 不 会 人 
小 于 已 经 被 放松 过 的 任意 顶点 的 最 短路 径 的 权重 ， 一 条 横 切 边 岂 然 在 
也 不 会 大 于 还 未 被 放松 过 的 任意 项 点 的 最 短路 径 中 


的 权重 。 这 个 顶点 就 是 下 一 个 要 被 放松 的 顶点 。 
所 有 从 s 可 达 的 顶点 都 会 按照 最 短路 径 的 权重 顺 图 4.49 Dijkstra 的 最 短路 径 算法 ( 另 见 彩 插 ) 
序 被 放松 。 

图 4.4.10 是 算法 处 理 样 图 tinyEWD.txt 时 的 轨迹 。 在 这 个 例子 中 ， 算 法 构造 最 短路 径 树 的 过 程 
如 下 所 述 。 

口 将 顶点 0 添加 到 树 中 ,将 顶点 2 和 4 加 入 优先 队列 。 

口 从 优先 队列 中 删除 顶点 2， 将 0 一 2 添加 到 树 中 ， 将 顶点 7 加 入 优先 队列 。 

口 从 优先 队列 中 删除 顶点 4， 将 0 一 4 添加 到 树 中 ， 将 顶点 5 加 入 优先 队列 ， 边 4 一 7 失效 。 

口 从 优先 队列 中 删除 顶点 7， 将 2 一 7 添加 到 树 中 ， 将 顶点 3 加 入 优先 队列 ， 边 7 一 5 失效 。 

口 从 优先 队列 中 删除 顶点 5， 将 4 一 5 添加 到 树 中 ， 将 顶点 1 加 入 优先 队列 ， 边 5 一 7 失效 。 

口 从 优先 队列 中 删除 顶点 3， 将 7 一 3 添加 到 树 中 ， 将 顶点 6 加 入 优先 队列 。 

口 从 优先 队列 中 删除 顶点 1， 将 5 一 工 添加 到 树 中 , 边 1 一 3 失效 。 

口 从 优先 队列 中 删除 顶点 6， 将 3 一 6 添加 到 树 中 。 

算法 按照 顶点 到 起 点 的 最 短路 径 的 长 度 的 增 序 将 它们 添加 到 最 短路 径 树 中 ， 如 图 4.4.10 右 侧 的 
红色 箭头 所 示 。 

Dijkstra 算法 的 实现 DijkstrasP (算法 4.9 ) 只 是 用 代码 复述 了 算法 的 描述 ， 还 在 relax() 方 
法 中 添加 了 一 行 语句 来 处 理 以 下 两 种 情况 : 要 么 边 的 to() 得 到 的 顶点 还 不 在 优先 队列 中 ， 此 时 需 
要 使 用 insertQ 方法 将 它 加 入 到 优先 队列 中 ; 要 么 它 已 经 在 优先 队列 中 且 优先 级 需要 被 降低 ， 此 
时 可 以 用 change() 方法 实现 。 


命题 R〈 续 ) 。 在 一 幅 含 用 个 顶点 和 条 边 的 加 权 有 向 图 中 ， 使 用 Dijkstra 算法 计算 根 结 点 
为 给 定 起 点 的 最 短路 径 树 所 需 的 空间 与 玉成 正比 ， 时 间 与 ElogV 成 正比 (最 坏 情 况 下 ) 。 


证 明 。 同 Prim 算法 的 证 明 ( 请 见 命 题 N ) 


如 前 所 述 ， 思考 Dijkstra 算法 的 另 一 种 方式 就 是 将 它 和 4.3 节 的 Prim 算法 (算法 4.7 ) 相 比 较 。 
两 种 算法 都 会 用 添加 边 的 方式 构造 一 棵 树 : Prim 算法 每 次 添加 的 都 是 离 树 最 近 的 非 树 顶点 ，Dijkstra 
算法 每 次 添加 的 都 是 离 起 点 最 近 的 非 树 顶 点 。 它 们 都 不 需要 marked[] 数组 ， 因 为 条 件 Imarked[w] 
等 价 于 条 件 distTo[w] 为 无 穷 大 。 换 句 话说 ,将 算法 4.9 中 的 有 向 图 换 成 无 向 图 并 忽略 relax() 
方法 中 distTo[v] 部 分 的 代码 ， 就 会 得 到 算法 47， 也 就 是 Prim 算法 的 即时 版 本 ( ! ) 。 同 样 ， 根 
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的 EC 休 下 入 < 人 全 所 村 的 全 AI。 edoero0 diserol) 
Prim 算法 的 延 时 实现 ” ) 实现 Dijkstra 算法 的 延 @_ 区 队列 (pq) 0 0.00 
时 版 本 也 并 不 困难 。 <s@ 一 2 o->2 0.26 0.26< 
4.4.4.3 变种 4 0->4 0.38 0.38 
我 们 只 需 对 Dijkstma 算法 的 实现 稍 作 适当 的 Je SR 
修改 就 能 够 解决 这 个 问题 的 其 他 版 本 ,例如 ， 加 pe 
o 0.00 


权 无 向 图 中 的 单 点 最 短路 径 。 给 定 一 幅 加 权 无 向 @-— Ss l 
图 和 一 个 起 点 s， 回 答 “ 是 否 存在 一 条 从 s 到 给 > ® 站 
定 的 顶点 v 的 路 径 ? 如 果 有 ， 找 出 最 短 ( 总 权重 ade 














最 小 ) 的 那 条 路 径 。” 等 类 似 问题 。 风 7 2->7 0.34 0.60 
如 果 将 无 向 图 看 作 有 向 图 ， 这 个 问题 的 答案 @_ 。 oo 
就 很 简单 了 。 也 就 是 说 ,对 于 给 定 的 加 权 无 向 图 ， ® ?02 026 0.26 
) 
创建 一 幅 由 相同 顶点 构成 的 加 权 有 向 图 ， 且 对 于 人 Sa 家 党 
无 向 图 中 的 每 条 边 ， 相 应 地 创建 两 条 (方向 不 同 ) 2 一 和 
有 向 边 。 有 向 图 中 的 路 径 和 无 向 图 中 的 路 径 存在 o oo 
着 一 一 对 应 的 关系 ， 路 径 的 权重 也 是 相同 的 一 Wg 030 0 
最 短路 径 的 问题 是 等 价 的 。 < © i 
算法 4.9 最短 路径 的 Dijkstra 算法 中 9) 了 ay oa 0 
0 0.00 
public class DijkstraSP 四 @— i Fe a 2 
private DirectedEdge[] edgeTo; OF 一 全 4 243 3 
private double[] distTo; (0) 5 4->5 0.35 0.73 
private IndexMinPQ<Double> pq; @) —Ne 7 2270.3 0.0 
public DijkstraSP(EdgewWeightedDigraph 0 0.00 
Gint s) Q 2 2 
{ 3 0.37 0) 
To = new DirectedEdge[G.V()]; CF 一 DO) 3 54 9:3 936 
To = new double[G.VO]; @ 5 5 0 
pi in Ne 和 
IndexMinPQ<Double>(G.VO); 0 0.00 
tor Gne voiv sov0i wy BO 和 二 操 
distTo[v] Double.POSITIVE_ CO) 3 7->3 0.37 0.97 
INFINITY © 4 0 3 
distTo[s] = 0.0; 内 (9) 5 汪 
pq.insert(s, 0.0); li 
while (!pq.isEmpty()) @ 1 5-31 0.32 1.05 
relax(G，pq.delMinO) Or 3 
ae i 
private void 6 3->6 0.52 1.49 
relax(EdgeweightedDigraph G, int v) @) 7 2->7 0.34 0.60 
{ . a 
rectedEdge e : G.adj(v)) 
fortni ectedEdge e : G.adi(v) 图 4.4.10 Dijkstra 算法 的 轨迹 ( 另 见 彩 插 ) 654 











int w = eto0Oi; 
if (distTo[w] > distTo[v] + € 
weightO) 
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if (pq.contains(w)) pq.change(w, distTo[w]); 
else pq.insert(w, distTo[w]); 


public double distToCint v) // 最 短路 径 树 实现 中 的 标准 查询 算法 
public boolean hasPathToCint v) // (请 见 4.4.2.6 节 框 注 “最 短路 径 
public Iterable<Edge> pathTo(int v) // API 中 的 查询 方法 ) 

} 





Dijkstra 算法 的 实现 每 次 都 会 为 最 短路 径 树 添加 一 条 边 ， 该 边 由 一 个 树 中 的 顶点 指向 一 个 非 树 
顶点 w 且 它 是 到 s 最 近 的 顶点 

给 定 两 点 的 最 短路 径 。 给 定 一 幅 加 权 有 向 图 以 及 一 个 起 点 s 和 一 个 终点 t+， 找到 从 s 到 上 的 最 
短路 径 。 

要 解决 这 个 问题 ， 你 可 以 使 用 Dijkstra 算法 并 在 从 优先 队列 中 取 到 t 之 后 终止 搜索 。 

任意 项 点 对 之 间 的 最 短路 径 。 给 
定 一 幅 加 权 有 向 图 ， 回 答 “ 给 定 一 个 public class DijkstraA11PairssP 
起 点 5 和 一 个 终点 t， 是 否 存在 一 条 { 
从 S 到 上 的 路 径 ?如果 有 ， 找 出 最 短 





private DijkstraSP[] al1; 


(总 权重 最 小 ) 的 那 条 路 径 。” 等 类 SketraA ipat rasr dodanieigieeddi grap (9) 
似 问 题 。 al1 = new DijkstraSP[G.VO] 

a for (int v= 0; GVOS v++) 
ee ee 。 an ~ ne Dijkstraspce, vs 

FE 意 顶点 对 之 间 问题 ， 

所 需 的 时 间 和 空间 都 与 EMogV 成 正 Iterable<Edge> path(Cint s, int t) 
比 。 它 构造 了 DijkstraSP 对 象 的 数 { return all[s}.pathTo(t); } 
组 ， 每 个 元 素 都 将 相应 的 顶点 作为 起 double distCint s, int t) 


{ return all[s].distTo(t); } 


点 。 在 用 例 进行 查询 时 ， 代 码 会 访问 
起 点 所 对 应 的 单 点 最 短路 径 对 象 并 将 
目的 顶点 作为 参数 进行 查询 。 任意 项 点 对 之 间 的 最 短路 径 

欧 拉 图 中 的 最 短路 径 。 在 顶点 为 
平面 上 的 点 且 边 的 权重 与 顶点 欧 拉 间距 成 正比 的 图 中 ， 解 决 单 点 、 给 定 两 点 和 任意 顶点 对 之 间 的 最 
短路 径 问题 。 

在 这 种 情况 下 ， 有 一 个 小 小 的 改动 可 以 大 幅 提 高 Dijkstra 算法 的 运行 速度 ( 请 见 练习 4.4.27 ) 。 

图 4.4.11 显示 的 是 Dijkstra 算法 在 处 理 测试 文件 mediumEWD.txt ( 请 见 4.4.2.2 节 ) 所 定义 的 欧 
拉 图 时 用 若干 不 同 的 起 点 产生 最 短路 径 树 的 过 程 。 和 之 前 一 样 ， 这 幅 图 中 的 线段 都 表示 双向 的 有 向 
边 。 这 些 图 片 展示 了 一 段 引 人 入 胜 的 动态 过 程 。 

下 面 ， 我 们 将 会 考虑 加 权 无 环 图 中 的 最 短路 径 算法 并 且 将 在 线性 时 间 内 解决 该 问题 ( 比 
Dijkstra 算法 要 快 ) 。 然 后 是 负 权重 的 加 权 有 向 图 中 的 最 短路 径 问 题 ，Dijkstra 算法 不 适用 于 这 
种 情况 。 
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本 
SPT 
图 44.11 Dijkstra 算法 (250 个 顶点 ， 不 同 的 起 点 ) 657 
4.4.5 无 环 加 权 有 向 图 中 的 最 短路 径 算法 


许多 应 用 中 的 加 权 有 向 图 都 是 不 含有 有 向 环 的 。 我 们 现在 来 学 习 一 种 比 Dijkstra 算法 更 快 、 更 
简单 的 在 无 环 加 权 有 向 图 中 找 出 最 短路 径 的 算法 ， 如 图 4.4.12 所 示 。 它 的 特点 是 : 
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口 能 够 在 线性 时 间 内 解决 单 点 最 短路 径 问题 ; desk 
口 能 够 处 理 负 权重 的 边 ; aE 
口 能 够 解决 相关 的 问题 ， 例 如 找 出 最 长 的 路 径 。 $4 局 
这 些 算法 都 是 在 4.2 节 中 学 过 的 无 环 有 向 图 的 拓 57 0.28 @) Q 
扑 排序 算法 的 简单 扩展 。 0 633 O—© 
特别 的 是 ， 只 要 将 顶点 的 放松 和 拓扑 排序 结合 D403 © o 
起 来 ， 马 上 就 能 够 得 到 一 种 解决 无 环 加 权 有 向 图 中 的 13 0.29 
最 短路 径 问题 的 算法 。 首 先 ， 将 distTo[s] 初始 化 和 
为 0， 其 他 distTo[] 元 素 初始 化 为 无 穷 大 ， 然 后 一 36 0.52 
个 一 个 地 按照 拓扑 顺序 放松 所 有 顶点 。 我 们 可 以 用 与 6 4 0.93 


Dijkstra 算法 的 证 明 ( 命题 R) 类 似 的 方法 证 明 这 个 。 图 44.12 由 无 环 加 权 有 向 图 和 它 的 _ 机 
方法 的 正确 性 。 最 短路 径 桂 


命题 S。 按 照 拓扑 顺序 放松 顶点 ， 就 能 在 和 BE+F 成 正比 的 时 间 内 解决 无 环 加 权 有 向 图 的 单 点 最 
短路 径 问题 。 


证 明 。 每 条 边 v 一 w 都 只 会 被 放松 一 次 。 当 v 被 放松 时 ， 得 到 : distTo[w]<= distTo[v]+e. 
weight()。 在 算法 结束 前 该 不 等 式 都 成 立 ， 因 为 distTo[v] 是 不 会 变化 的 ( 因为 是 按照 拓扑 
顺序 放松 顶点 ， 在 v 被 放松 之 后 算法 不 会 再 处 理 任何 指向 v 的 边 ) 而 distTo[w] 只 会 变 小 ( 任 
何 放松 操作 都 只 会 减 小 distTo[] 中 的 元 素 的 值 ) 。 因 此 ， 在 所 有 从 s 可 达 的 顶点 都 被 加 入 到 
树 中 后 ， 最 短路 径 的 最 优 性 条 件 成 立 ， 命 题 Q 也 就 成 立 了 。 时 间 上 限 很 容易 得 到 : 命题 G 告诉 
我 们 拓扑 排序 所 需 的 时 间 与 E+V 成 正比 ， 而 在 第 二 次 遍历 中 每 条 边 都 只 会 被 放松 一 次 ， 因 此 算 
法 总 耗 时 与 有 + 玉成 正比 。 
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图 4.4.13 是 算法 处 理 无 环 加 权 有 向 样 图 tinyEWDAG.txt 的 轨迹 。 在 这 个 例子 中 ， 算 法 由 顶点 5 
开始 按照 以 下 步骤 构建 了 一 棵 最 短路 径 树 : 

口 用 深度 优先 搜索 得 到 图 的 顶点 的 拓扑 排序 5 1 3 6 4 7 0 2; 

口 将 顶点 5 和 从 它 指出 的 所 有 边 添加 到 树 中 ; 

口 将 顶点 1 和 边 1 一 3 添加 到 树 中 ; 

口 将 顶点 3 和 边 3 一 6 添加 到 树 中 , 边 3 一 7 已 经 失效 ; 

口 将 顶点 6 和 边 6 一 2、6 一 0 添加 到 树 中 , 边 6 一 4 已 经 失效 ; 

口 将 顶点 4 和 边 4 一 0 添加 到 树 中 , 边 4 一 7 和 6 一 0 已 经 失效 ; 

口 将 顶点 7 和 边 7 一 2 添加 到 树 中 , 边 6 一 2 已 经 失效 ; 

口 将 项 点 0 添加 到 树 中 , 边 0 一 2 已 经 失效 ; 

口 将 顶点 2 添加 到 树 中 。 

图 中 没有 画 出 将 2 添加 到 树 中 的 一 步 ， 拓 扑 序列 中 的 最 后 一 个 顶点 没有 指出 的 边 。 
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图 4.4.13 寻找 无 环 加 权 有 向 图 中 的 最 短路 径 的 算法 轨迹 ( 另 见 彩 插 ) 
算法 4.10 在 实现 中 直接 使 用 了 已 学 习 过 的 许多 代码 。 它 假设 Topo1ogical 类 使 用 本 节 中 介绍 
的 EdgeweightedDigraph 类 和 DirectedEdge 类 的 API (请 见 练习 4.4.12 ) 重 载 了 拓扑 排序 的 方法 。 
注意 ， 该 实现 中 不 需要 布尔 数组 marked[] : 因为 是 按照 拓扑 顺序 处 理 无 环 有 向 图 中 的 顶点 ， 所 以 
不 可 能 再 次 过 到 已 经 被 放松 过 的 顶点 。 算 法 4.10 的 效率 几乎 已 经 没有 提高 的 空间 了 : 在 拓扑 排序 后 ， 
构造 函数 会 扫描 整 幅 图 并 将 每 条 边 放松 一 次 。 在 已 知 加 权 图 是 无 环 的 情况 下 ， 它 是 找 出 最 短路 径 的 
最 好 方法 。 


算法 4.10 无 环 加 权 有 向 图 的 最 短路 径 算法 
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public class Acyclicsp 





private do 


public AcyclicSp(EdgeWeightedDigraph G, int s) 
{ 

edgeTo = New DirectedEdgelG.VO]; 
new doublefG 





for (int v = 0; v < GVO; 


Double .POSITIVE 








distTofsl = 0.0 


Topological top = new Topological(O); 
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for (int v : top.orderO) 





relax(G，V); 

private void r 

// 请 见 4.4.1.5 框 注 

public double distTo(in // 最 短路 径 树 实现 中 的 标准 查询 算法 ( 请 见 4.4.1.6 
框 注 “ 最 短路 径 API 的 查询 方法 ”) 

public boolean haspa 





public Iterable<Dire 





} 


无 环 加 权 有 向 图 的 最 短路 径 算法 使 用 了 拓扑 排序 ( 算法 4.5， 重 载 了 EdgeweightedDigraph 类 和 
DirectedEdge 类 ) 来 按照 拓扑 顺序 放松 所 有 项 点， 这 对 于 计算 出 图 中 的 最 短路 径 已 经 足够 了 。 





% java Acyc1icSP tinyEWDAG. txt 5 

5 to 0 (0.73): 5->4 0.35 4->0 0.38 

5 to 1 (0.32): 5->1 0.32 

5 to 2 (0.62): 5->7 0.28 7->2 0.34 

5 to 3 (0 ->1 0.32 1->3 0.29 

5 to 4 (0. 5->4 0.35 

5 to 5 〈0.00: 

5 to 6 (1.13): 5->1 0.32 1->3 0.29 3->6 0.52 
5 to 7 (0.28): 5->7 0.28 
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命题 S 很 重要 ， 因 为 它 的 “无 环 ” 能 够 极 大 地 简化 问题 的 论断 。 对 于 最 短路 径 问 题 ， 基 于 拓扑 
排序 的 方法 比 Dijkstra 算法 快 的 倍数 与 Dijkstra 算法 中 所 有 优先 队列 操作 的 总 成 本 成 正比 。 另 外 ， 
命题 S 的 证 明和 边 的 权重 是 否 非 负 无 关 ， 因 此 无 环 加 权 有 向 图 不 会 受到 任何 限制 。 下 面 用 这 个 特点 
解决 边 的 负 权重 问题 。 我 们 会 考虑 使 用 这 个 最 短路 径 模型 来 解决 另外 两 个 问题 ， 其 中 之 一 乍 一 看 甚 
至 和 图 的 处 理 似乎 没有 任何 关系 。 
4.4.5.1 最 长 路 径 

考虑 在 无 环 加 权 有 向 图 中 寻找 最 长 路 径 的 问题 ， 边 的 权重 可 正 可 负 。 

无 环 加 权 有 向 图 中 的 单 点 最 长 路 径 。 给 定 -一 幅 无 环 加 权 有 向 图 ( 边 的 权重 可 能 为 负 ) 和 一 个 起 
点 5s, 回 答 “ 是 否 存在 一 条 从 s 到 给 定 的 顶点 v 的 路 径 7 如 果 有 , 找 出 最 长 ( 总 权重 最 大 ) 的 那 条 路 径 。” 
等 类 似 问题 。 

我 们 刚刚 学 习 过 的 算法 能 够 快速 地 解决 这 个 问题 。 


命题 T。 解 决 无 环 加 权 有 向 图 中 的 最 长 路 径 问 题 所 需 的 时 间 与 E+ 成 正比 。 


证 明 。 给 定 一 个 最 长 路 径 问题 ， 复 制 原始 无 环 加 权 有 向 图 得 到 一 个 副本 并 将 副本 中 的 所 有 边 的 
权重 变 为 负 值 。 这 样 ， 副 本 中 的 最 短路 径 即 为 原 图 中 的 最 长 路 径 。 要 将 最 短路 径 问 题 的 答案 转 
换 为 最 长 路 径 问 题 的 答案 ， 只 需 将 方案 中 的 权重 变 为 正 值 即 可 。 根 据 命题 S 立即 可 以 得 到 算法 
所 需 的 时 间 。 
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根据 这 种 转换 实现 Acyc1icLP 类 来 寻找 一 幅 无 环 加 拓扑 排序 


51364702 edgeTol] 


权 有 向 图 中 的 最 长 路 径 就 十 分 简单 了 。 实 现 该 类 的 一 个 © 1 ot 
更 简单 的 方法 是 修改 Acyc1icSP， 将 distTo[] 的 初始 © @ 

值 变 为 Double.NEGATIVE_INFINITY 并 改变 relax0 方 2 和 
法 中 的 不 等 式 的 方向 。 无 论 使 用 哪 种 方法 ， 都 能 得 到 无 < 一 LN 


环 加 权 有 向 图 中 的 最 长 路 径 问题 的 一 种 高 效 的 解决 方案 。 


和 它 形成 鲜明 对 比 的 是 ， 在 一 般 的 加 权 有 向 图 ( 边 的 权 。 ~@->@ 1 S21 
重 可 能 为 负 ) 中 寻找 最 长 简单 路 径 的 已 知 最 好 算法 在 最 © 二 @ 3 1 
坏 情况 下 所 需 的 时 间 是 指教 级 别 的 (请 见 第 6 章 )! 出 
现 环 的 可 能 性 似乎 使 这 个 问题 的 难度 以 指数 级 别 增长 。 Wa 
图 4.4.14 是 算法 在 无 环 加 权 有 向 样 图 tinyEWDAG.txt 
中 寻找 最 长 路 径 的 轨迹 ， 你 可 以 将 它 与 图 4.4.13 相 比 较 人 
在 这 个 例子 中 ， 算 法 由 顶点 5 按照 以 下 步 邓 构 建 了 一 棵 3 
最 长 路 径 树 : $126 
口 用 深度 优先 搜索 得 到 图 的 顶点 的 拓扑 排序 5 1 3 
64702; i 
口 将 顶点 5 和 从 它 指出 的 所 有 边 添加 到 树 中 ; 
口 将 顶点 1 和 边 1 一 3 添加 到 树 中 ; Pn 
口 将 顶点 3 和 边 3 一 6、3 一 7 添加 到 树 中 ， 边 ?3 
5 一 7 已 经 失效 ; 


口 将 顶点 6 和 边 6 一 2、6 一 4 和 6 一 0 添加 到 树 中 ; 
口 将 顶点 4 和 边 4 一 0、4 一 7 添加 到 树 中 ， 边 
6 一 0 和 3 一 7 已 经 失效 ; 
口 将 顶点 7 和 边 7 一 2 添加 到 树 中 , 边 6 一 2 已 经 
失效 ; 

口 将 顶点 0 添加 到 树 中 ， 边 0 一 2 已 经 失效 ; 

口 将 顶点 2 添加 到 树 中 (未 画 出 ) 。 

最 长 路 径 算法 处 理 顶 点 的 顺序 和 最 短路 径 算法 一 样 ， 
但 产生 的 结果 却 完全 不 同 。 
4.4.5.2 平行 任务 调度 

作为 算法 应 用 的 示例 ， 我 们 再 次 考虑 在 4.2 节 中 出 现 
过 的 任务 调度 类 的 问题 。 这 次 需要 解决 以 下 调度 问题 ( 楷 
体 部 分 为 与 4.2.4.1 节 的 问题 描述 的 不 同 之 处 ) 。 

优先 级 限制 下 的 并 行 任务 调度 。 给 定 一 组 需要 完成 
的 特定 任务 ， 以 及 一 组 关于 任务 完成 的 先后 次 序 的 优先 图 44.14 无 环 图 中 的 最 长 路 从 算法 
级 限制 。 在 满足 限制 条 件 的 前 提 下 应 该 如 何在 若干 相同 ( 另 见 彩 插 ) 
的 处 理 器 上 (数量 不 限 ) 安排 任务 并 在 最 短 的 时 间 内 完 
成 所 有 任务 ? 

42 节 的 模型 默认 只 有 单个 处 理 器 : 将 任务 按照 拓扑 顺序 排序 ， 完 成 任务 的 总 耗 时 就 是 所 有 任 
务 所 需要 的 总 时 间 。 现 在 假设 有 足够 多 的 处 理 器 并 能 够 同时 处 理 任意 多 的 任务 ， 受 到 的 只 有 优先 级 
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的 限制 。 和 以 前 一 样 ， 需 要 处 理 的 任务 可 能 上 百 万 甚至 上 亿 ， 因 此。 表 4.4.5 一 个 任务 调度 问题 
需要 一 个 高 效 的 算法 。 令 人 兴奋 的 是 ， 正 好 存在 一 种 线性 时 间 的 算 一 一 大 DJ 下 全 
法 一 一 种 叫做 “关键 路 径 “ 的 方法 能 够 证 明 这 个 问题 与 无 环 加 权 。。 任务 时 耗 。 务 之 前 完成 
有 向 图 中 的 最 长 路 径 问 题 是 等 价 的 。 这 个 方法 已 成 功 应 用 于 无 数 的 4.0 179 
工业 软件 之 中 。 让 

假设 任意 可 用 的 处 理 器 都 能 在 任务 所 需 的 时 间 内 完成 它 ， 那 么 re 
我 们 的 重点 就 是 尽早 安排 每 一 个 任务 。 例 如 ， 表 4.4.5 给 出 了 一 个 38.0 
任务 调度 问题 ， 图 4.4.15 给 出 的 解决 方案 显示 了 这 个 问题 所 需 的 最 45.0 
短 时 间 为 173.0。 这 份 调度 方案 满足 了 所 有 限制 条 件 ， 没 有 其 他 调 21.0 
度 方 案 能 比 它 耗 时 更 少 ， 因 为 任务 必须 按照 0 一 9 一 6 一 8 一 2 的 3 
顺序 完成 。 这 个 顺序 就 是 这 个 问题 的 关键 路 径 。 由 优先 级 限制 指定 29.0 
的 每 一 列 任务 都 代表 了 调度 方案 的 一 种 可 能 的 时 间 下 限 。 如 果 将 一 
系列 任务 的 长 度 定义 为 完成 所 有 任务 的 最 早 可 能 时 间 ， 那 么 最 长 的 
任务 序列 就 是 问题 的 关键 路 径 ， 因 为 在 这 份 任务 序列 中 任何 任务 的 
启动 延迟 都 会 影响 到 整个 项 目的 完成 时 间 。 


oowvaowhwNmho 
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定义 。 解 决 并 行 任务 调度 问题 的 关键 路 径 方法 的 步骤 如 下 : 创建 一 幅 无 环 加 权 有 向 图 ， 其 中 包 
含 一 个 起 点 s 和 一 个 终点 七 且 每 个 任务 都 对 应 着 两 个 顶点 ( 一 个 起 始 顶点 和 一 个 结束 顶点 ) 。 
对 于 每 个 任务 都 有 一 条 从 它 的 起 始 顶 点 指向 结束 顶点 的 边 ， 边 的 权重 为 任务 所 需 的 时 间 。 对 于 
每 条 优先 级 限制 v 一 w， 添 加 一 条 从 v 的 结束 顶点 指向 w 的 起 始 顶 点 的 权重 为 零 的 边 。 我 们 还 
需要 为 每 个 任务 添加 一 条 从 起 点 指向 该 任务 的 起 始 顶 点 的 权重 为 零 的 边 以 及 一 条 从 该 任务 的 结 
东 顶 点 到 终点 的 权重 为 零 的 边 。 这 样 ， 每 个 任务 预计 的 开始 时 间 即 为 从 起 点 到 它 的 起 始 顶 点 的 
最 长 距离 。 








1 
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图 4.4.15 并 行 任务 调度 问题 的 解决 方案 


图 4.4.16 显示 的 是 示例 任务 所 对 应 的 图 ， 图 4.4.17 则 显示 的 是 最 长 路 径 的 答案 。 如 定义 所 述 ， 
在 图 中 每 个 任务 都 对 应 着 三 条 边 〈 从 起 点 到 起 始 顶 点 、 从 结束 顶点 到 终点 的 权重 为 零 的 边 ， 以 及 一 
条 从 起 始 顶 点 到 结束 顶点 的 边 ) ， 每 个 优先 级 限制 条 件 都 对 应 着 一 条 边 。 后 面 框 注 “ 优 先 级 限制 下 
的 并 行 任务 调度 问题 的 关键 路 径 方法 ”中 的 CPM 类 简洁 明了 地 实现 了 关键 路 径 方法 。 它 能 够 将 任意 
任务 调度 问题 转化 为 无 环 加 权 有 向 图 中 的 一 个 最 长 路 径 问 题 ， 用 Acyc1icLP 解决 它 并 打印 出 每 个 
任务 的 开始 时 间 以 及 调度 方案 的 结束 时 间 。 
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© 








图 4.4.17 “任务 调度 示例 问题 的 最 长 路 径 解决 方案 同 











优先 级 限制 下 的 并 行 任务 调度 问题 的 关键 路 径 方法 


public class CPM 








人 Fa % more jobsPC. 
public static void main(String[] args) gt 
{ 10 
int N = StdIn.readInt(O); StdIn.readLineO); 41.0 179 
EdgeweightedDigraph G; 51.0 2 
G = new EdgeWeightedDigraph(2*N+2); 50.0 
int s = 2*N, t = 2*N+1; 36.0 
for (int 1 = 0; 1 < N; i++) p44 
45.0 
t 21.0 38 
String[] a = StdIn.readLine() .split("\\s+" 人 
double duration = Double.parseDouble(a[0]); 320 2 
G.addEdge(new DirectedEdge(i, i+N, duration)); 29.0 46 


G.addEdge(new DirectedEdge(s, i, 0.0)); 


G.addEdge(new DirectedEdge(i+N, t, 0.0)); 
for (int j = 1; j < a.length; j++) 
{ 
int successor = Integer.parseInt(a[j]); 
G.addEdge(new DirectedEdge(i+N, successor, 0.0)); 
» 


432 b> 第 4 章 图 








665 








Acyc1icLP 1p = new AcyclicLP(G, s); 


% java CPM < 
StdOut.printin("Start times:"); jobsPC. txt 
for (int i = 0; i < N; i++) Start times: 
Stdout.printf("%4d: %5.1f\n", i, 1p.distToCi)); o 区 
StdOut.printf("Finish time: %5.1f\n"，1p.distTo(t)); 2: 123.0 
} 3: 91.0 
4: 70.0 
1 5: 0.0 
这 里 实现 的 任务 调度 问题 的 关键 路 径 方法 将 问题 归 约 为 寻找 无 环 加 权 有 向 人 
图 的 最 长 路 径 问 题 。 它 会 根据 任务 调度 问题 的 描述 用 关键 路 径 的 方法 构造 一 幅 8: 91.0 
加 权 有 向 图 ( 且 必 然 是 无 环 的 ) ， 然 后 使 用 Acyc1icLP ( 请 见 命题 T) 找到 图 A re 


中 的 最 长 路 径 树 ， 最 后 打印 出 各 条 最 长 路 径 的 长 度 ， 也 就 正好 是 每 个 任务 的 开 。 “179 3 
始 时 间 。 





命题 U。 解 决 优先 级 限制 下 的 并 行 任务 调度 问题 的 关键 路 径 法 所 需 的 时 间 为 线性 级 别 。 


证 明 。 为 什么 CPM 类 能 够 解决 问题 ? 算法 的 正确 性 依赖 于 两 个 因素 。 首 先 ， 在 相应 的 有 向 无 环 
图 中 ， 每 条 路 径 都 是 由 任务 的 起 始 顶 点 和 结束 顶点 组 成 的 并 由 权重 为 零 的 优先 级 限制 条 件 的 边 
分 隔 一 一 从 起 点 s 到 任意 顶点 v 的 任意 路 径 的 长 度 都 是 任务 v 的 开始 /结束 时 间 的 下 限 ， 因 为 
这 已 经 是 在 同一 台 处 理 器 上 顺序 完成 这 些 任务 的 最 优 的 排列 顺序 了 。 因 此 ， 从 起 点 s 到 终点 
的 最 长 路 径 就 是 所 有 任务 的 完成 时 间 的 下 限 。 第 二 ， 由 最 长 路 径 得 到 的 所 有 开始 和 结束 时 间 都 
是 可 行 的 一 一 每 个 任务 都 只 能 在 优先 级 限制 指定 的 先导 任务 完成 之 后 开始 ， 因 为 它 的 开始 时 间 
就 是 顶点 到 它 的 起 始 顶点 的 最 长 路 径 的 长 度 。 因 此 ， 从 起 点 s 到 终点 七 的 最 长 路 径 长 度 就 是 所 
有 任务 完成 时 间 的 上 限 。 由 命题 T 很 容易 得 到 算法 所 需 的 时 间 是 线性 的 。 


4.4.5.3 ”相对 最 后 期 限 限 制 下 的 并 行 任务 调度 

- 般 的 最 后 期 限 ( deadline ) 都 是 相对 于 第 一 个 任务 的 开始 时 间 而 言 的 。 假 设 在 任务 调度 问题 
中 加 入 一 种 新 类 型 的 限制 ， 需 要 某 个 任务 必须 在 指定 的 时 间 点 之 前 开始 ， 即 指定 和 另 一 个 任务 的 开 
始 时 间 的 相对 时 间 。 这 种 类 型 的 限制 条 件 在 争分夺秒 的 生产 线 上 以 及 许多 其 他 应 用 中 都 很 常见 ， 但 
它 也 会 使 得 任务 调度 问题 更 难 解决 。 例 如 ， 如 表 4.4.6 所 示 ， 假设 要 在 前 面 的 示例 中 加 入 一 个 限制 
条 件 ,使 2 号 任务 必须 在 4 号 任务 启动 后 的 12 个 时 间 单 位 之 内 开始 。 实 际 上 ， 在 这 里 最 后 期 限 限 
制 的 是 4 号 任务 的 开始 时 间 : 它 的 开始 时 间 不 能 早 于 2 号 任务 开始 12 个 时 间 单 位 。 在 示例 中 ， 调 
度 表 中 有 足够 的 空 档 来 满足 这 个 最 后 期 限 限制 : 我 们 可 以 令 4 号 任务 开始 于 111 时 间 ， 即 2 号 任务 
计划 开始 时 间 前 的 12 个 时 间 单 位 处 。 需 要 注意 的 是 ， 如 果 4 号 任务 耗 时 很 长 ， 这 个 修改 可 能 会 延 
长 整个 调度 计划 的 完成 时 间 。 同 理 ， 如 果 再 添加 一 个 最 后 期 限 的 限制 条 件 ， 令 2 号 任务 必须 在 7 号 
任务 启动 后 的 70 个 时 间 单 位 内 开始 ， 还 可 以 将 7 号 任务 的 开始 时 间 调 整 到 53， 这 样 就 不 用 修改 3 
号 任务 和 8 号 任务 的 计划 开始 时 间 。 但 是 如 果 继 续 限制 4 号 任务 必须 在 零 号 任务 启动 后 的 80 个 时 
间 单 位 内 开始 ， 那 么 就 不 存在 可 行 的 调度 计划 了 : 限制 条 件 4 号 任务 必须 在 0 号 任务 启动 后 的 80 
个 时 间 单 位 内 开始 以 及 2 号 任务 必须 在 4 号 任务 启动 后 的 12 个 时 间 单位 之 内 开始 ,意味 着 2 号 任 
务必 须 在 0 号 任务 启动 后 的 93 个 时 间 单位 之 内 开始 , 但 因为 存在 任务 链 0( 41 个 时 间 单位 ) 一 9(29 
个 时 间 单位 ) 一 6 ( 21 个 时 间 单 位 ) 一 8 (32 个 时 间 单 位 ) 一 2,2 号 任务 最 早 也 只 能 在 0 号 任务 





启动 后 的 123 个 时 间 单 位 之 内 开始 如 表 4.4.7 所 示 。 最 后 期 限 
的 限制 越 多 ， 调 度 的 可 能 性 也 就 越 多， 简单 的 问题 也 会 变 得 越 
困难 。 


表 4.4.7 向 任务 调度 问题 中 添加 的 最 后 期 限 限 制 





任务 相对 最 后 期 限 相对 于 任务 
12.0 4 
70.0 7 
80.0 0 


命题 V。 相 对 最 后 期 限 限制 下 的 并 行 任务 调度 问题 是 一 个 
加 权 有 向 图 中 的 最 短路 径 问题 ( 可 能 存在 环 和 负 权 重 边 ) 。 


证 明 。 与 命题 U 一 样 根据 任务 调度 的 描述 构造 相同 的 加 
权 有 向 图 ， 为 每 条 最 后 期 限 限制 添加 一 条 边 : 如 果 任 务 v 
必须 在 任务 Ww 启动 后 的 d 个 时 间 单位 内 开始 ， 则 添加 一 
条 从 Vv 指向 w 的 负 权 重 为 d 的 边 。 将 所 有 边 的 权重 取 反 
即 可 将 该 问题 转化 为 一 个 最 短路 径 问 题 。 如 果 存 在 可 行 
的 调度 方案 ,证 明 也 就 完成 了 。 你 将 会 看 到 ,判断 一 个 
调度 方案 是 否 可 行 也 是 计算 的 一 部 分 。 


这 个 示例 说 明了 负 权 重 的 边 在 实际 应 用 的 模型 中 也 能 起 
到 重要 的 作用 。 它 说 明 ， 如 果 能 够 有 效 解决 负 权重 边 的 最 短路 
径 问 题 ， 那 就 能 够 找到 相对 最 后 期 限 限制 下 的 并 行 任务 调度 问 
题 的 解决 方案 。 我 们 已 经 学 习 过 的 算法 都 无 法 完成 这 个 任务 : 
Dijkstra 算法 只 适用 于 正 (或 零 ) 权重 的 边 ， 算 法 4.10 要 求 有 
向 图 是 无 环 的 。 下 面 我 们 来 看 看 如 何 解决 含有 负 权 重 且 不 一 定 
是 无 环 的 有 向 图 中 的 最 短路 径 问 题 ( 请 见 图 4.4.18 ) 


4.4.6 ”一般 加 权 有 向 图 中 的 最 短路 径 问题 

刚才 讨论 过 的 最 后 期 限 限制 下 的 任务 调度 问题 告诉 我 们 负 s 
权重 的 边 并 不 仅仅 是 一 个 数学 问题 。 相 反 ， 它 能 够 极 大 地 扩展 
解决 最 短路 径 问 题 的 模型 的 应 用 范围 。 接 下 来 考虑 既 可 能 含 
有 环 也 可 能 含有 负 权重 的 边 的 加 权 有 向 图 中 的 最 短路 径 算法 。 
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表 4.4.6 ”相对 最 后 期 限 限制 下 的 


任务 调度 
原始 问题 
i 
0 0.0 
1 41.0 
2 123.0 
3 91.0 
4 70.0 
0.0 
6 70.0 
7 41.0 
8 91.0 
9 41.0 
2 号 任务 必须 在 4 
号 任务 启动 后 的 12 
个 时 间 单位 之 内 开始 
rn 
0 0.0 
1 41.0 
2 123.0 
3 91.0 
4 111.0 
5 0.0 
6 70.0 
7 41.0 
8 91.0 
9 41.0 
2 号 任务 必须 在 7 
号 任务 记 动 后 的 70 
个 时 间 单 位 之 内 开始 
任务 。 开始 时 间 
0 0.0 
1 41.0 
2 123.0 
3 91.0 
4 111.0 
5 0.0 
6 70.0 
7 53.0 
8 91.0 
9 41.0 
4 号 任务 乡 须 在 0 
号 任务 启动 后 的 80 
个 时 闻 单 位 之 内 开始 
调度 方案 不 存在 


在 开始 之 前 ， 先 来 学 习 一 下 这 种 有 向 图 的 基本 性 质 以 更 新 我 们 对 最 短路 径 的 认识 。 图 4.4.19 是 一 个 
小 小 的 示例 ， 展 示 的 是 负 权重 的 边 对 有 向 图 中 的 最 短路 径 的 影响 。 也 许 最 明显 的 改变 就 是 当 存在 负 
权重 的 边 时， 权重 较 小 的 路 径 含有 的 边 可 能 会 比 权重 较 大 的 路 径 更 多 。 在 只 存在 正 权 重 的 边 时 ， 我 
们 的 重点 在 于 寻找 近 路 ; 但 当 存在 负 权 重 的 边 时 ,我 们 可 能 会 为 了 经 过 负 权重 的 边 而 绕 地 。 这 种 效 
应 使 得 我 们 要 将 查找 "最 短 "路 径 的 感觉 转变 为 对 算法 本 质 的 理解 。 因 此 需要 抛弃 直觉 并 在 一 个 简单 、 


抽象 的 层面 上 考虑 这 个 问题 。 
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图 4.4.18 ”相对 最 后 期 限 限制 和 优先 级 限制 下 的 并 行 任务 调度 问题 的 加 权 有 向 图 表示 
4.4.6.1 尝试 1 
第 一 个 想法 是 先 找到 权重 最 小 〈 最 小 的 Dt 
负 值 ) 的 边 ， 然 后 将 所 有 边 的 权重 加 上 这 个 
负 值 的 绝对 值 ， 这 样 原 有 向 图 就 转变 称 为 了 4->5 0.35 





- 幅 不 含有 负 权 重 边 的 有 向 图 。 这 种 天 真 的 re ©-Q© 
做 法 不 会 解决 任何 问题 ， 因 为 新 图 中 的 最 短 S27 9 和 DEO 
路 径 和 原 图 中 的 最 短路 径 毫 无 关系 。 路 径 中 5 03 | 
的 边 越 多 ， 这 种 变换 产生 的 危害 越 大 ( 请 见 De 
练习 4414) 23 0.29 re 
4.4.6.2 ”尝试 I 2->7 0.34 

第 二 个 想法 是 尝试 改造 Dijkstra 算法 。 26 0 
这 种 方法 最 根本 的 缺陷 在 于 原 算法 的 基础 在 人 
于 根据 距离 起 点 的 远近 依次 检查 路 径 。 命 是 
RR 对 算法 正确 性 的 证 明 是 基于 添加 一 条 边 会 以 顶点 0 为 起 点 的 最 短路 径 树 edgeTo[] distTo[] 
使 的 路 径 变 得 更 长 的 假设 。 但 添加 任意 负 权 1] 
重 的 边 只 会 使 得 路 径 更 短 ， 因 此 这 个 假设 是 3 2 0:9 
不 成 立 的 ( 请 见 练习 4.4.14 ) 。 P| 
4.4.6.3 ” 负 权 重 的 环 7 227 0.60 





当 我 们 在 研究 含有 负 权 重 边 的 有 向 图 时 ， 
如 果 该 图 中 含有 一 个 权重 为 负 的 环 ， 那 么 最 
短路 径 的 概念 就 失去 意义 了 。 例 如 图 4.4.20， 除 了 边 5 一 4 的 权重 为 -0.66 外 ， 它 和 第 一 个 示例 完 
全 相同 。 这 里 ， 环 4 一 7 一 5 一 4 的 权重 为 : 
0.37+0.28-0.66=-0.01 
我 们 只 要 围 着 这 个 环 守 圈子 就 能 得 到 权重 任意 短 的 路 径 ! 注意 ， 有 向 环 的 所 有 边 的 权重 并 不 一 
定 都 必须 是 负 的 ， 只 要 权重 之 和 是 负 的 即 可 。 


图 4.4.19 含有 负 权重 的 边 的 加 权 有 向 图 


定义 。 加 权 有 向 图 中 的 负 权重 环 是 一 个 总 权重 ( 环 上 的 所 有 边 的 权重 之 和 ) 为 负 的 有 向 环 。 
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现在 ， 假 设 从 s 到 可 达 的 某 个 顶点 v 的 路 径 上 的 某 个 顶点 在 一 个 负 权 重 环 上 。 在 这 种 情况 下 ， 
从 s 到 v 的 最 短路 径 是 不 可 能 存在 的 ， 因 为 可 以 用 这 个 负 权重 环 构造 权重 任意 小 的 路 径 。 换 句 话说 ， 
在 负 权 重 环 存在 的 情况 下 ， 最 短路 径 问题 是 没有 意义 的 ， 如 图 4.4.21 所 示 。 


命题 W。 当 且 仅 当 加 权 有 向 图 中 至 少 存在 一 条 从 s 到 v 的 有 向 路 径 且 所 有 从 s 到 v 的 有 向 路 径 
上 的 任意 顶点 都 不 存在 于 任何 负 权 重 环 中 时 ，s 到 v 的 最 短路 径 才 是 存在 的 。 


证 明 。 请 见 以 上 讨论 以 及 练习 4.4.29。 


注意 ， 要 求 最 短路 径 上 的 任意 顶点 都 不 存在 负 权重 环 意味 着 最 短路 径 是 简单 的 ， 而 且 与 正 权重 
边 的 图 一 样 都 能 够 得 到 此 类 项 点 的 最 短路 径 树 。 


灰色 : 从 s 不 可 达 的 顶点 


tinyEWDnc .txt 人 N 9 
白色: 从 s 可 达 的 顶点 














ee 
15< 一 2 
4 5 0.35 
人 ec = Nt 
f 二 5: 
3 52 op 
5 1 0.32 
04 038 (9 四 
0 2 0.26 
7 3 0.39 
13 0.29 
2 7 0.34 
6 2 0.40 负 权重 环 
3 6 0.52 
6 0 0.58 
6 4 0.93 
从 顶点 0 到 顶点 6 的 最 短路 径 
0->4->7->5->4->7->5.…->1->3->6 
红 边 轮廓: Se 669| 
图 4.4.20 含有 负 权重 环 的 加 权 有 向 图 ( 另 见 彩 插 ) 图 4.4.21 ”最短 路径 问题 的 各 种 可 能 性 ( 另 见 彩 插 ) 
4.4.6.4 ”尝试 [I 


无 论 是 否 存在 负 权重 环 ， 从 s 到 可 达 的 其 他 顶点 的 一 条 最 短 的 简单 路 径 都 是 存在 的 。 为 什么 不 
定义 最 短路 径 以 方便 寻找 呢 ? 不 幸 的 是 ， 已 知 解决 这 个 问题 的 最 好 算法 在 最 坏 情 况 下 所 需 的 时 间 是 
指数 级 别 的 《请 见 第 6 章 ) 。 一 般 来 说 ， 我 们 认为 这 种 问题 “ 太 难 了 ”， 只 会 研究 它 的 简单 版 本 。 

因此 ， 一 个 定义 明确 且 可 以 解决 加 权 有 向 图 最 短路 径 问 题 的 算法 要 能 够 : 

口 对 于 从 起 点 不 可 达 的 顶点 ， 最 短路 径 为 正 无 穷 ( +oo ) ; 

口 对 于 从 起 点 可 达 但 路 径 上 的 某 个 顶点 属于 一 个 负 权重 环 的 顶点 ， 最 短路 径 为 负 无 穷 (oo ) ; 

口 对 于 其 他 所 有 项 点， 计算 最 短路 径 的 权重 ( 以 及 最 短路 径 树 ) 。 

从 本 节 的 开始 ， 我 们 会 不 断 为 最 短路 径 问题 加 上 各 种 限制 并 找到 解决 相应 问题 的 办 法 。 首 先 ， 
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我 们 不 允许 负 权重 边 的 存在 ; 其 次 不 接受 有 向 环 。 现 在 我 们 放宽 所 有 这 些 条 件 并 重点 解决 一 般 有 向 
图 中 的 以 下 问题 。 

负 权重 环 的 检测 。 给 定 的 加 权 有 向 图 中 含有 负 权 重 环 吗 ? 如 果 有 ， 找 到 它 。 

负 权 重 环 不 可 达 时 的 单 点 最 短路 径 。 给 定 一 幅 加 权 有 向 图 和 一 个 起 点 s 且 从 s 无 法 到 达 任何 负 
权重 环 ， 回 答 “ 是 否 存在 一 条 从 s 到 给 定 的 顶点 v 的 有 向 路 径 ?如 果 有 ， 找 出 最 短 ( 总 权重 最 小 ) 
的 那 条 路 径 。” 等 类 似 问 题 。 

总 结 。 尽 管 在 含有 环 的 有 向 图 中 最 短路 径 是 一 个 没有 意义 的 问题 ， 而 且 也 无 法 有 效 解决 在 这 种 
有 向 图 中 高 效 找 出 最 短 简单 路 径 的 问题 ， 在 实际 应 用 中 仍然 需要 能 够 识别 其 中 的 负 权重 环 。 例 如 ， 
在 最 后 期 限 限制 下 的 任务 调度 问题 中 ， 负 权重 环 的 出 现 可 能 相对 较 少 : 限制 条 件 和 最 后 期 限 都 是 从 
现实 世界 中 的 实际 限制 得 来 的 ， 因 此 负 权 重 环 大 多 可 能 来 自 于 问题 陈述 中 的 错误 。 找 出 负 权重 环 ， 
改正 相应 的 错误 ， 找 到 没有 负 权重 环 问题 的 调度 方案 才 是 解决 问题 的 正确 方式 。 在 其 他 情况 下 ， 找 
到 负 权重 环 就 是 计算 的 目标 。 下 面 这 个 由 R.Bellman 和 L.Ford 在 20 世纪 50 年 代 末 期 发 明 的 算法 能 
够 简明 、 有 效 地 解决 这 些 问题 并 且 同 样 适 用 于 正 权重 边 的 有 向 图 。 


命题 X (Bellman-Ford 算法 ) 。 在 任意 含有 下 个 顶点 的 加 权 有 向 图 中 给 定 起 点 5， 从 5 无 法 到 
达 任 何 负 权重 环 ， 以 下 算法 能 够 解决 其 中 的 单 点 最 短路 径 问 题 : 将 distTo[s] 初始 化 为 0， 其 他 
distTo[] 元 素 初始 化 为 无 穷 大 。 以 任意 顺序 放松 有 向 图 的 所 有 边 ， 重 复 亚 轮 。 


证 明 。 对 于 从 s 可 达 的 任意 顶点 t， 考 虑 从 s 到 的 一 条 最 短路 径 ;: Vo 一 Vi 一 .… 一 Ve， 其 
中 Vo 等 于 s，Vi 等 于 t。 因 为 负 权 重 环 是 不 可 达 的 ， 这 样 的 路 径 是 存在 的 且 k 不 会 大 于 V1。 
我 们 会 通过 归纳 法 证 明 算 法 在 第 了 轮 之 后 能 够 得 到 s 到 vi 的 最 短路 径 。 最 简单 的 情况 ( i=0 ) 
很 容易 。 假 设 对 于 了 命题 成 立 ， 那 么 5 到 vi 的 最 短路 径 即 为 vv 一 Vi 一 … 下 Vi distTo[vi] 
就 是 这 条 路 径 的 长 度 。 现 在 ， 我 们 在 第 了 轮 中 放松 所 有 的 顶点 ， 包 括 ww， 因此 distTo[vi] 
不 会 大 于 distTo[vi] 与 边 vi 一 via 的 权重 之 和 。 在 第 了 办 放松 之 后 ，distTo[via] 必然 等 于 
distTo[vi] 与 边 vi 一 vewi 的 权重 之 和 。 它 不 可 能 更 大 ， 因 为 在 第 了 轮 中 放松 了 所 有 顶点 ， 包 
括 vi; 它 也 不 可 能 更 小 ， 因 为 它 就 是 路 径 Vo 一 Vi 一 *…* 一 Viwi 的 长 度 ， 也 就 是 最 短路 径 了 。 因 
此 ， 在 计 1 轮 之 后 算法 能 够 得 到 从 s 到 vw 的 最 短路 径 。 


命题 W 〈 续 ) 。Bellman-Ford 算法 所 需 的 时 间 和 BF 成 正比 ， 空 间 和 所 成 正比 。 
证 明 。 在 每 一 办 中 算法 都 会 放松 已 条 边 ， 共 重复 亚 轮 。 


这 个 方法 非常 通用 ， 因 为 它 没有 指定 边 的 放松 顺序 。 下 面 将 注意 力 集中 在 一 个 通用 性 稍 逊 的 方 
法 上 ， 其 中 只 放松 从 任意 顶点 指出 的 所 有 边 〈 顺序 任意 ) ， 以 下 代码 说 明了 这 种 方法 的 简洁 性 : 


for (int pass = 0; pass < G.VO; pass++) 
for (v = 0; v < GVO; v++) 
for (DirectedEdge e : G.adj(v)) 
relax(e); 


我 们 不 会 仔细 研究 这 个 版 本 ， 因 为 它 总 是 会 放松 VE 条 边 且 只 需 稍 作 修 改 即 可 使 算法 在 一 般 的 
应 用 场景 中 更 加 高 效 。 
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4.4.6.5 ”基于 队列 的 Bellman-Ford 算法 
其 实 ， 根 据 经 验 我 们 很 容易 知道 在 任意 一 轮 中 许多 边 的 放松 都 不 会 成 功 ， 只 有 上 一 轮 中 的 
gistTo[] 值 发 生变 化 的 顶点 指出 的 边 才能 够 改变 其 他 distTo[] 元 素 的 值 。 为 了 记录 这 样 的 顶点 ， 
我 们 使 用 了 一 条 FIFO 队列 。 算 法 在 处 理 正 权重 标准 样 图 中 进行 的 操作 如 图 4.4.22 所 示 。 在 示意 图 
4.4.22 左 侧 是 每 一 轮 中 队列 中 的 有 效 顶 点 (红色 ) ， 紧 接着 是 下 一 轮 中 的 有 效 顶 点 ( 黑色 ) 。 首先 
将 起 点 加 入 队列 ， 然 后 按照 以 下 步骤 计算 最 短路 径 树 。 
口 放松 边 1 一 3 并 将 顶点 3 加 入 队列 。 
口 放松 边 3 一 6 并 将 顶点 6 加 入 队列 。 
口 放松 边 6 一 4、6 一 0 和 6 一 2 并 将 顶点 4、0 和 2 加 入 队列 。 
口 放 松 边 4 一 7、4 一 5 并 将 顶点 7 和 4 加 入 队列 。 放 松 已 经 失效 的 边 0 一 4 和 0-，2。 然后 再 
放松 边 2 一 7 ( 并 重新 为 4 一 7 着 色 ) 。 
口 放松 边 7 一 5 ( 并 重新 为 4 一 5 着色 ) 但 不 将 顶点 5 加 入 队列 ( 它 已 经 在 队列 之 中 了 ) 。 放 
松 已 经 失效 的 边 7 一 3。 然后 放松 已 经 失效 的 边 5 一 1、5 一 4 和 5 一 7。 此 时 队列 为 空 。 


q 起 点 edgeTo[] 
\ edgeTo[] 
1 © 
© 
® © 3 1->3 et 
@ © 7 2->7 





每 一 办 队列 中 的 有 
edgeTo[] 
Wy edgeTo[] 


为 红色 
4/ ! QE 
人 A 
@ : (4) 6) 5 7->5 


3->6 


红色 ， 本 轮 的 有 效 顶点 二 edgeTol] 
‘® OO @) 0 on © GO) G@G) 9 6->0 
人 加 一 @ 2 6->2 Os Q 3 号 
2 © 64 @ 、 
, 


黑色 : 下 一 轮 的 有 效 顶 点 


图 4.4.22 Bellman-Ford 算法 的 轨迹 ( 另 见 彩 插 ) 


4.4.6.6 ”实现 
根据 这 些 描述 实现 Bellman-Ford 算法 所 需 的 代码 非常 少 ， 如 算法 4.11 所 示 。 它 基于 以 下 两 种 
其 他 的 数据 结构 : 
口 一 条 用 来 保存 即将 被 放松 的 顶点 的 队列 q; 
口 一 个 由 项 点 索引 的 boolean 数组 onQ[] ， 用 来 指示 顶点 是 否 已 经 存在 于 队列 中 ， 以 防止 将 [672 
顶点 重复 插入 队列 。 
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然 es private void relax(EdgeweightedDigraph G, int v) 
要 后 进入 一 ; { 


都 从 队列 中 取出 一 个 顶点 并 将 for {DirectedEdge e ; G.adj(v) 
其 放松 。 要 将 一 个 顶点 插入 队 多 
列 , 需要 修改 4.4.2.4 节 框 注 “ 边 if (distTofw] > distTo[v] + e.weight()) 
的 松 驰 ”中 relaxQ 〇 方法 的 实 1 distTo[w] = distTofv] + e.weightO); 
现 ， 以 便 将 被 成 功放 松 的 边 所 i 
指向 的 顶点 加 入 队列 中 ， 如 右 { 
边框 注 “Bellman-Ford 算法 中 queue. enqueue(w); 
的 放松 操作 ”所 示 。 这 些 数据 le 
结构 能 够 保证 : if (cost++ % G.VO == 0) 
口 队列 中 不 出 现 重复 的 顶点 findNegativeCycle() ; 
口 在 某 一 轮 中 , 改变 了 edg- $ } 
eTo[] 和 distTo[] 的 值 
的 所 有 顶点 都 会 在 下 一 轮 Bellman-Ford 算 法 中 的 放松 操作 
中 处 理 。 


要 完整 地 实现 该 算法 ， 我 们 就 需要 保证 在 了 上 轮 后 算法 能 够 终止 。 实 现 它 的 一 种 方法 是 显 式 记 录 
放松 的 轮 数 。 我 们 的 实现 Be11manFordSP (算法 4.11 ) 使 用 了 另 一 种 方法 ， 将 会 在 4.4.6.8 节 详 述 : 
它 会 在 有 向 图 的 edgeTo[] 中 检测 是 否 存在 负 权重 环 ， 如 果 找 到 则 结束 运行 。 





命题 Y。 对 于 任意 含有 个 顶点 的 加 权 有 向 图 和 给 定 的 起 点 s， 在 最 坏 情况 下 基于 队列 的 
Bellman-Ford 算法 解决 最 短路 径 问题 ( 或 者 找到 从 s 可 达 的 负 权重 环 ) 所 需 的 时 间 与 EV 成 正比 ， 
空间 和 上 成 正比 。 


证 明 。 如 果 不 存在 从 s 可 达 的 负 权 重 环 ， 算 法 会 根据 命题 X 在 进行 [一 1 轮 放松 操作 后 结束 ( 因 
为 所 有 最 短路 径 含 有 的 边 数 都 小 于 -1) 。 如 果 的 确 存在 一 个 从 s 可 达 的 负 权 重 环 ， 那 么 队列 
永远 不 可 能 为 空 。 根 据 命题 X， 在 第 己 轮 放松 之 后 ，edgeTo[] 数组 必然 会 包含 一 条 含有 一 个 
环 的 路 径 ( 从 某 个 顶点 Ww 回 到 它 自己 ) 且 该 环 的 权重 必然 是 负 的 。 因 为 w 会 在 路 径 上 出 现 两 次 
且 s 到 w 的 第 二 次 出 现 处 的 路 径 长 度 小 于 s 到 w 的 第 一 次 出 现 的 路 径 长 度 。 在 最 坏 情况 下 ， 该 











673] 。 算法 的 行为 和 通用 算法 相似 并 会 将 所 有 的 已 条 边 全 部 放松 亚 轮 。 





算法 4.11 ”基于 队列 的 BellIman-Ford 算法 





pub1ics*class BellmanFordSP 


private double[] distTo; // 从 起 点 到 莱 个 顶点 的 路 径 长 度 
private DirectedEdge[] edgeTo; // 从 起 点 到 某 个 顶点 的 最 后 一 条 边 
private boolean[] onQ; // 该 顶点 是 否 存在 于 队列 中 
private Queue<Integer> queue; // 正在 被 放松 的 顶点 

private int cost; // relax() 的 调用 次 数 


private Iterable<DirectedEdge> cycle; // edgeTo[] 中 的 是 否 有 负 权 重 环 


public BellmanFordSp(EdgeWeightedDigraph G, int s) 
% 


distTo = new double[G.VO]; 
edgeTo = new DirectedEdge[G.VO]; 
onQ = new boolean[G.VO]; 
queue = new Queue<Integer>(); 
for (int v = 0;:y¥ < G,VO; v++) 
distTo[v] = Double.POSITIVE_INFINITY: 
distTofs] = 0.0 
queue.enqueue(s); 
onQ[s] = true; 
while (!queue.isEmpty() && !this.hasNegativeCycle()) 
{ 
int v = queue. dequeue(); 
onQ[v] = false; 
relax(G, WW; 
} 
} 


private void relax(EdgeWeightedDigraph G,v) 
/ 4.4,6.6 节 全 Be11man-Ford 开 法 的 芳 份 操作 
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public double distTo(int v) // 最 短路 径 树 实现 中 的 标准 查询 算法 请 见 4.4.2.6 节 “最 短路 


径 API 的 查询 方法 ”) 


public boolean haspathToCint v) 


public Iterable<Edge> pathTo(int v) // 4.4.6.8 节 要 注 “Beliman-Ford” 的 负 权 重 检测 方法 


private void findNegativeCycle() 
public boolean hasNegativeCycle() 
public Iterable<Edge> negativeCycle() 


// 请 见 6.4.6.8 节 
} 


Bellman-Ford 算法 的 实现 修改 了 relax() 方法 ， 将 被 成 功放 松 的 边 指 向 的 所 有 顶点 加 入 到 一 条 
FIFO 队列 中 ( 以 避免 出 现 重复 顶点 ) 并 周期 性 地 检查 edgeTo[] 表示 的 子 图 中 是 否 存在 负 权 重 环 (请 


见 正文 ) 。 
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基于 队列 的 Bellman-Ford 算法 能 够 准确 有 效 地 解决 最 短路 径 问 题 并 且 在 实际 中 被 广泛 应 用 ， 其 
至 包括 正 权重 的 情况 。 例 如 ， 如 图 4.4.23 所 示 ， 在 含有 250 个 顶点 的 样 图 中 ， 算 法 进行 了 14 轮 操 


作 且 对 于 相同 的 问题 比较 路 径 长 度 的 次 数 少 于 Dijkstra 算法 。 
4.4.6.7 负 权 重 的 边 


图 4.4.24 显示 了 Beliman-Ford 算法 在 处 理 含有 负 权重 边 的 有 向 图 的 轨迹 。 首 先 将 起 点 加 入 队列 


9， 然 后 按照 以 下 步骤 计算 最 短路 径 树 。 
口 放松 边 0 一 2 和 0 一 4 并 将 顶点 2、4 加 入 队列 。 


口 放松 边 2 一 7 并 将 顶点 7 加 入 队列 。 放 松 边 4 一 5 并 将 顶点 5 加 入 队列 。 然 后 放松 失效 的 边 


4 一 7o 


口 放松 边 7 一 3 和 5 一 1 并 将 顶点 3 和 1 加 入 队列 。 放 松 失效 的 边 5 一 4 和 5 一 7。 


口 放松 边 3 一 6 并 将 顶点 6 加 入 队列 。 放 松 失效 的 边 1 一 3。 


口 放松 边 6 一 4 并 将 顶点 4 加 入 队列 。 这 条 负 权 重 边 使 得 到 顶点 4 的 路 径 变 短 ， 因此 它 的 边 需 
要 被 再 次 放松 ( 它们 在 第 二 轮 中 已 经 被 放松 过 ) 。 从 起 点 到 顶点 5 和 的 距离 已 经 失效 并 


会 在 下 一 轮 中 修正 。 
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口 放松 边 4 一 5 并 将 顶点 5 加 入 队列 。 放 松 失效 的 边 
4 一 7。 
口 放松 边 5 一 1 并 将 顶点 1 加 入 队列 。 放 松 失 效 的 边 
5 一 4 和 5 一 7。 
口 放松 无 效 的 边 1 一 3。 队列 为 室 
在 这 个 例子 中 ， 最 短路 径 树 就 是 一 条 从 顶点 0 到 顶点 
1 的 路 径 。 从 顶点 4、5 和 1 指出 的 所 有 边 都 被 放松 了 两 次 。 
对 照 这 个 例子 重读 命题 X 的 证 明 能 够 帮助 你 更 好 的 理解 这 
个 算法 。 
4.4.6.8” 负 权重 环 的 检测 
实现 BellmanFordSP 会 检测 负 权 重 环 来 避免 陷入 无 
限 的 循环 中 。 我 们 也 可 以 将 这 段 检测 代码 独立 出 来 使 得 用 
例 可 以 检查 并 得 到 负 权重 环 。 因 此 我 们 为 表 4.4.4 中 的 API 
添加 以 下 方法 请 见 表 4.4.8。 





表 4.4.8 为 处 理 负 权重 环 扩展 最 短路 径 的 API 
boolean hasNegativeCycleO ”是否 含 有 负 权 
重 环 
得 到 负 权重 环 


《如 果 没 有 则 
返回 nu11) 


Iterable<DirectedEdge> negativeCycle() 





实现 这 些 方 法 并 不 困难 ， 如 以 下 代码 所 示 。 在 
BellmanFordSP 的 构造 函数 运行 之 后 ,命题 Y 说 明 在 将 
所 有 边 放松 V 轮 之 后 当 且 仅 当 队列 非 空 时 有 向 图 中 才 存 
在 从 起 点 可 达 的 负 权 重 环 。 如 黑 是 这 样 ，edgeTo[] 数组 
所 表示 的 子 图 中 必然 含有 这 个 负 权 重 环 。 因 此 ， 要 实现 
negativeCycle() ,会 根据 edgeTo[] 中 的 边 构造 一 幅 加 
权 有 向 图 并 在 该 图 中 检测 环 。 我 们 会 使 用 并 修改 4.2 节 中 
的 DirectedCycle 类 来 在 加 权 有 向 图 中 寻找 环 ( 请 见 练 
习 4.4.12 ) 。 这 种 检查 的 成 本 分 为 以 下 几 个 部 分 。 

口 添加 一 个 变量 cycle 和 一 个 私有 函数 findNega- 

tive-Cycle()。 如 果 找 到 负 权 重 环 ， 该 方法 会 将 
cycle 的 值 设 为 含有 环 中 所 有 边 的 一 个 迭代 器 (如 
果 没 有 找到 则 设 为 nu11) 。 

口 每 调用 V 次 relax() 方法 后 即 调用 findNegati- 

veCycle0 方法 。 


Se 


Es 
PS 
et 


图 4.4.23 Bellman-Ford 算法 (250 个 
顶点 ) ( 另 见 彩 插 ) 
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tinyEwDn.txt 
4->5 0.35 my edgeTo[] distTo[] 
5->4 0.35 
4->7 0.37 . © © @ 
5->7 0.28 和 
7->5 0.28 到 Os @) 
5->1 0.32 5 4->5 0.73 
0->4 0.38 (4) 让 © i 
0->2 0.26 起 点 - 
了 3 0 edoeror] distTo[] 
2->7 0.34 
6->2 -1.20 © © G) 1 5->1 1.05 
2 3 OO 3 7->3 0.99 
6->0 -1.40 3 全 
6->4 -1.25 
© © 
edgeTo[] distTo[] 
3 ”OQ 
6 ODO) 
(0) 
(4) 图 6 3->6 1.51 
edgeTo[] distTor] 
6 1 5->1 1.05 
* 
不 再 有 效 ! 
4 6->4 0.26 
5 4->5 -0.73 
edgeTo[] distTo[] 
4 1 5->1 1.05 
5 
5 4->5 0.61 
edgeTo[] distTor[] 
0 
5 1 5->1 0.93 
1 2 0->2 0.26 
3 7->3 0.99 
4 6->4 0.26 
2 4->5 0.61 
6 3->6 1.51 
7 2->7 0.60 





图 4.4.24 Bellman-Ford 算法 的 轨迹 〈 图 中 含有 负 权重 边 ) 〈 另 见 彩 插 ) 


这 种 方法 能 够 保证 构造 函数 中 的 循环 必然 会 终止 。 另 外 ， 用 例 可 以 调用 hasNegativeCycle() 
来 判断 是 否 存在 从 起 点 可 达 的 负 权 重 环 ( 并 用 negativeCycle() 来 获取 这 个 环 ) 。 要 在 任意 有 向 
图 中 检测 负 权 重 环 的 存在 只 需 稍 作 扩展 即 可 ( 请 见 练习 4.4.43 ) 。 
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图 4.4.25 是 Bellman-Ford 算 法 在 
一 幅 含有 负 权 重 环 的 有 向 图 中 的 运行 轨 
迹 。 头 两 轮 放 松 操作 与 处 理 tinyEWDn. 
tt 时 是 一 样 的 。 在 第 三 轮 中 ， 算 法 
在 放松 了 边 7 一 3 和 5 一 1 并 将 顶点 
3 和 1 加 入 队列 后 开始 放松 负 权 重 边 
5 一 4。 在 这 次 放松 操作 中 算法 发 现 了 
一 个 负 权重 环 4 一 5 一 4。 它 将 5 一 4 
加 入 最 短路 径 树 中 并 在 edgeTo[] 中 将 
环 和 起 点 隔离 开 来 。 从 这 时 开始 ， 算 法 
沿 着 环 继续 运行 并 会 减少 到 达 所 遇 到 的 
所 有 顶点 的 距离 , 直至 检测 到 环 的 存在 ， 
此 时 队列 非 空 。 环 被 保存 在 edgeTo[] 
中 ,findNegativeCycle() 会 在 其 中 
找到 它 。 


private void findNegativeCycleO 
{ 
int V = edgeTo. length; 
EdgeweightedDigraph spt; 
spt = new EdgeweightedDigraph(V); 
for (int v = 0; v < Vi v++) 
if (edgeTo[v] != nul1) 
spt.addEdge(edgeTo[v]); 


EdgeweightedCycleFinder cf; 
cf = new EdgeweightedCycleFinder (spt); 


cycle = cf.cycleO; 
} 


public boolean hasNegativeCycle() 
{ return cycle != null; } 


public Iterable<Edge> negativeCycle() 
{ return cycle; } 


Bellman-Ford 算 法 的 负 权 重 环 检测 方法 


tinyEwDnc. txt | 
a ps Wg edgeTo[] distTo[] 
5->4 -0.66 [ 
9 0.37 : @-®-© 
5->7 0.28 7 @ 二 O 
7->5 0.28 5 @ 
5->1 0.32 5 445 0.73 
0->4 0.38 CC 一 © 
0->2 0.26 起 点 7 227 0.60 
3 0 edgeTo[] distToD 
2->7 0.34 7 a 1.05 
3226 0:92 . we 
->6 0. 3 3 7->3 0.99 
6->0 0.58 1 ! TT 4 5-24 0.07 < 路径 0_4 一 5 
6->4 0.93 4 © 的 长 度 
edgeTo[] distTo[] 
3 
1 @ VQ 
: TA 
o © 5 4->5 0.42 
5 6 3->6 1.51 
四 ?+ ae7 0.44 
edgeTo[] distTo[] 
6 Q 1 5->1 0.74 
7 
5 - 3 7123 0.83 
1 3 .0.53 和 os 
1 © 4 一 5-*4 的 长 度 
(© 
图 4.4.25 Bellman-Ford 算法 的 轨迹 (含有 人 负 权 重 环 的 图 ， 另 见 彩 插 ) 
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4.4.6.9 套 汇 

假设 有 一 个 基于 商品 贸易 的 金融 交易 市 场 。 以 下 框 注 显示 的 是 示例 文件 rates.txt 的 内 容 ， 你 可 
以 在 任意 货币 兑换 比例 的 表格 中 找到 类 似 的 内 容 。 文 件 的 第 一 行 是 货币 的 种 类 数 V， 接 下 来 的 每 一 
行 都 对 应 一 种 货币 ， 开 头 是 该 货币 的 名 称 ， 紧 接着 是 它 和 其 他 货币 兑换 的 汇率 。 简 单 起 见 ， 这 个 例 
子 中 只 包含 了 能 够 在 现代 市 场 中 进行 交易 的 数 百 种 货币 中 的 五 种 : 美元 (USD ) 、 欧 元 (EUR ) 、 
英镑 ( GBP ) 、 瑞 十 法郎 (CHF ) 和 加 元 (CAD ) 。 第 s 行 的 第 t 个 数字 表示 一 个 汇率 ， 即 购买 一 
个 单位 的 第 s 行 的 货币 需要 多 少 个 单位 的 第 t 行 的 货币 。 例 如 ， 这 张 表 告诉 我 们 ，1000 美元 能 够 
购买 741 欧元 。 这 张 表格 等 价 于 一 帐 完全 的 加 权 有 向 图 ， 顶 点 对 应 着 货币 ， 边 则 对 应 着 汇率 。 权 重 
为 x 的 边 5 一 上 表示 从 货币 s 到 货币 t 的 汇率 为 x。 这 张 图 中 的 路 径 则 表示 多 次 兑换 。 例 如 ， 将 权 
重 为 y 的 边 t 一 u 和 刚才 的 边 结合 起 来 就 得 到 了 一 条 路 径 s 一 t+ 一 u， 即 一 个 单位 的 货币 s 可 以 总 
换 为 xy 个 单位 的 货币 u。 比 如 ， 欧 元 可 以 兑换 得 到 1012.206=741*1.366 加 元 。 注 意 ， 这 比 直接 用 
美元 兑换 的 汇率 更 高 。 你 可 能 会 以 为 xy 总 是 应 该 等 于 边 s 一 u 的 权重 ， 但 这 张 表 格 所 表示 的 金融 
系统 非常 复杂 ， 并 不 总 是 能 够 保证 这 种 一 致 性 。 因 此 ， 找 到 所 有 从 s 到 u 的 路 径 中 所 有 边 的 权重 之 
积 最 大 者 就 是 我 们 最 感 兴趣 的 问题 。 一 种 更 有 趣 的 情况 是 ， 所 有 边 的 权重 之 积 小 于 从 终点 指向 起 点 
的 边 的 权重 。 在 这 个 示例 中 ， 假 设 边 u 一 s 的 权重 为 z 且 xyz>1。 那 么 环 s 一 tu 一 s 就 能 够 用 
一 个 单位 的 货币 s 得 到 多 于 一 个 单位 (xyz) 的 货币 s。 换 句 话说 ， 将 货币 s 兑换 为 t+、u 并 最 后 
再 兑换 为 s 就 可 以 得 到 100Cxyz-1) 的 利润 。 例 如 ， 如 果 将 1012.206 加 元 重新 兑换 为 美元 ， 可 以 
得 到 1012.206*0.995=1007.14497 美元 ， 也 就 是 得 到 了 7.14497 美元 的 利润 。 这 看 起 来 似乎 不 多 ， 
但 一 个 外 汇 交 易 商 可 能 会 用 一 百 万 美元 并 在 每 分 钟 都 进行 一 遍 这 样 的 交易 ， 也 就 是 说 他 每 分 钟 的 
利润 将 超过 7000 美元 ， 或 者 说 每 小 时 的 利润 超过 420 000 美元 ! 这 就 是 套 汇 交易 的 一 个 例子 ， 请 
见 图 4.4.26。 如 果 没有 外 力 的 限制 ， 
比如 手续 费 或 是 交易 金额 上 限 ， 交 易 % more rates.txt 
商 可 以 从 其 中 获取 无 限 的 利润 。 即 使 5 


USD 1 0.741 0.657 1.061 1.005 
是 在 现实 世界 中 的 这 些 限制 下 ， 套 汇 EUR 1.349 1 0.888 1.433 1.366 
的 利润 仍然 是 非常 高 的 。 这 个 问题 和 CBP 1.521 1.126 1 1.614 1.538 
CHF 0.942 0.698 0.619 1 0.953 

最 短路 径 问 题 有 什么 关系 呢 ? 要 回答 CAD 0.995 0.732 0.650 1.049 1 


这 个 问题 非常 简单 。 


命题 Z。 套 汇 问题 等 价 于 加 权 有 向 图 中 的 负 权 重 环 的 检测 问题 。 


证 明 。 取 每 条 边 权 重 的 自然 对 数 并 取 反 ,这样 在 原始 问题 中 所 有 这 的 权重 之 积 的 计算 就 转化 为 
了 新 图 中 所 有 边 的 权重 之 和 的 计算 。 任 意 权重 之 积 wiwz…wi 即 对 应 -InGw)-Inow)-…-lnGwD 之 和 。 
转换 后 边 的 权重 可 能 为 正 也 可 能 为 负 。 一 条 从 v 到 WwW 的 路 径 表示 将 货币 v 兑换 为 货币 w， 图 中 
的 任意 负 权 重 环 都 是 一 次 套 汇 的 好 机 会 ( 请 见 图 4.4.27 ) 。 


在 这 个 示例 中 ,货币 可 以 任意 兑换 ,因此 有 向 图 是 完全 的 ,任意 负 权 重 环 都 是 从 任意 顶点 可 达 的 。 
在 一 般 的 商品 交易 中 ,有 些 边 可 能 并 不 存在 ,因此 需要 练习 4.4.43 所 述 的 只 有 一 个 参数 的 构造 函数 。 
目前 没有 已 知 的 寻找 最 佳 套 汇 机 会 (图 中 负 权 重 最 小 的 环 ) 的 高 效 算法 ( 图 的 规模 不 需要 很 大 就 能 
使 所 需 的 计算 量 超过 计算 机 的 承受 能 力 ) ， 但 找 出 任意 套 汇 机 会 的 最 快 算法 仍然 是 很 重要 的 一 在 
第 二 快 的 算法 找到 任何 套 汇 机 会 之 前 ， 使 用 这 种 算法 的 商人 很 可 能 已 经 可 以 系统 地 排除 许多 不 佳 的 
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套 汇 机 会 了 。 


-InC74D -InGL.366 -1nC.995) 


.741 * 1.366 * .995 » 1.09714497 .2998 - .3119 + .0050 = -.0071 





图 4.4.26 一 次 套 汇 机 会 图 4.4.27 一 个 负 权 重 环 就 表示 了 一 次 套 汇 的 机 会 


货币 兑换 中 的 套 汇 





public class Arbitrage 
public static void main(String[] args) 


int V = StdIn.readInt(); 
String[] name = new String[V]; 
EdgeweightedDigraph G = new EdgeWweightedDigraph(V); 
for (int v= 0; Vv < V; v++) 
name[v] = StdIn.readString(); 
for Cint w = 0; Ww < V; w++) 


double rate = StdIn.readDouble(); 
DirectedEdge e = new DirectedEdge(v, w, -Math.1log(rate)); 
CG.addEdge(e); 


} 

BellmanFordSp spt = new BellmanFordSP(G, 0); 
if (spt.hasNegativeCycle()) 

{ 


double stake = 1000. 
for (DirectedEdge e : spt.negativeCycle()) 





StdOut.printf("%10.5f %s”, stake, name[e.from()]); 


Stake *= Math.exp(-e.weight()); 
StdOut.printf("= %10.5f %s\n", stake, name[e.to0)]); 
了 


} 
else Std0ut.println("No arbitrage opportunity"); 


4.4 最 短路 径 二 445 


这 段 代 码 调用 了 Be11manFordSP 类 来 寻 


% java Arbitrage < rates.txt 


找 汇率 表 中 的 套 汇 机 会 。 它 首先 使 用 完全 有 向 0 
图 表示 汇率 表 ， 然 后 用 Bellman-Ford 算法 来 寻 741.00000 EUR = 1012.20600 CAD 
找 图 中 的 负 权 重 环 。 1012.20600 CAD = 1007.14497 USD 





命题 Z 的 证 明 即 使 在 没有 套 汇 机 会 的 情况 下 仍然 有 用 ， 因 为 它 将 货币 兑换 问题 转化 为 了 一 个 
最 短路 径 问题 。 因 为 对 数 函 数 是 单调 的 ( 且 会 对 计算 的 结果 取 反 ) ， 当 边 的 权重 之 和 最 小 时 汇率 
之 积 正好 最 大 。 尽 管 边 的 权重 可 正 可 负 ， 从 v 到 w 的 最 短路 径 仍然 是 将 货币 v 兑换 为 货币 w 的 最 
好 方法 。 


4.4.7 展望 

表 4.4.9 总 结 了 本 节 中 我 们 所 学 习 到 的 各 种 最 短路 径 算法 的 重要 性 质 。 在 这 些 算法 中 进行 选择 
的 第 一 个 条 件 是 问题 所 涉及 的 有 向 图 的 基本 性 质 。 它 含有 负 权重 的 边 吗 ? 它 含有 环 吗 ? 它 含 有 负 权 
重 的 环 吗 ? 除了 这 些 基 本 性 质 之 外 ， 加 权 有 向 图 的 特性 多 种 多 样 ， 因 此 在 有 多 个 合适 的 选择 时 就 需 
要 通过 实验 找 出 最 佳 的 算法 。 


表 4.4.9 最 短路 径 算法 的 性 能 特点 


路 径 长 度 的 比较 次 数 
(增长 的 数量 级 ) 






所 需 空间 优 势 












Dijkstra 算法 ( 即时 版 本 ) 。 | 边 的 权重 必须 为 下 ei 





只 适用 于 无 环 加 权 右 
向 图 


不 能 存在 负 权 重 环 





拓扑 排序 是 无 环 图 中 的 最 优 算法 








适用 领域 广泛 





Belliman-Ford 算 法 ( 基于 队列 ) 


历史 资料 

自 20 世纪 50 年 代 以 来 ， 最 短路 径 算法 就 已 经 被 深入 地 研究 并 被 广泛 应 用 了 。 计 算 最 短路 径 的 
Dijkstra 算法 的 历史 和 计算 最 小 生成 树 的 Prim 算法 的 历史 背景 相似 ( 并 且 也 相关 ) 。Dijkstra 算法 
既 指 的 是 按照 顶点 距离 起 点 的 远近 顺序 构造 最 短路 径 树 的 算法 ， 也 指 的 是 该 算法 的 实现 ，( 它 也 是 
最 适合 用 临 接 矩 阵 表示 的 算法 。 ) ， 因 为 Dijkstra 在 1959 年 的 一 篇 论文 中 发 表 了 上 述 观点 ( 并 且 证 
明了 这 种 方法 同样 也 可 以 用 来 计算 最 小 生成 树 ) 。 稀 疏 图 算法 的 性 能 改进 来 自 于 之 后 对 优先 队列 实 
现 的 改进 ， 不 仅仅 针对 最 短路 径 问题 。 这 其 中 最 重要 的 是 Dijkstra 算法 性 能 的 改进 。 ( 例如 ， 使 用 
辈 波 那 契 堆 后 最 坏 情况 下 的 复杂 度 可 以 提高 到 E+VlogV) 。 实 践 证 明 Bellman-Ford 算法 十 分 有 效 并 
且 应 用 领域 广泛 ， 特 别 是 处 理 一 般 性 的 加 权 有 向 图 。 由 于 Bellman-Ford 算法 计算 普通 应 用 的 运行 时 
间 常 常 是 线性 的 ， 因 此 在 最 坏 情况 下 它 的 运行 时 间 是 VE。 最 坏 情 况 下 的 运行 时 间 为 线性 级 别 的 稀 
朴 图 的 最 短路 径 算法 是 一 个 仍 在 研究 之 中 的 问题 。Bellman-Ford 算法 最 早 由 L.Ford 和 R.Bellman 发 
表 于 20 世纪 50 年 代 。 尽 管 我 们 已 经 看 到 许多 其 他 的 图 算法 性 能 得 到 了 大 幅 改 进 ， 但 是 处 理 含 有 负 
权重 边 〔 但 不 含 负 权重 环 ) 的 且 在 最 坏 情况 下 性 能 更 好 的 有 向 图 算法 还 没有 出 现 。 
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为 什么 要 分 别 为 无 向 图 、 有 向 图 、 加 权 无 向 图 、 加 权 有 向 图 定义 不 同 的 数据 类 型 ? 

这 么 做 是 为 了 使 用 例 代码 更 清晰 ， 同 时 也 是 为 了 更 加 简洁 和 高 效 地 实现 没有 权重 的 图 。 在 需 
要 处 理 各 种 图 的 应 用 或 系统 中 ， 软 件 工程 中 的 标准 做 法 就 是 先 定义 一 种 抽象 数据 结构 并 根据 
它 衍生 出 其 他 抽象 数据 结构 ， 也 就 是 4.1 节 中 学 习 的 无 向 图 Graph，4.2 节 中 学 习 的 有 向 图 
Digraph，4.3 节 中 学 习 的 加 权 无 向 图 EdgeWeightedGraph， 或 是 在 本 节 中 学 习 的 加 权 有 向 图 
EdgeweightedDigraph。 

如 何在 (加权 ) 无 向 图 中 找到 最 短路 径 ? 

对 于 边 的 权重 均 为 正 的 图 ，Dijkstra 算法 可 以 解决 这 个 问题 。 只 需 根据 给 定 的 Edgewe-ightedGraph 
构造 一 幅 EdgeWeightedDigraph ( 无 向 图 中 的 每 条 边 都 对 应 着 有 向 图 中 的 两 条 方向 不 同 的 边 ) 并 执 
行 Dijkstra 算法 即 可 。 如 果 边 的 权重 可 能 为 负 ， 高 效 的 算法 也 是 存在 的 ， 但 它们 比 Bellman-Ford 算 
法 更 复杂 。 


围 练 


4.4.1 真 假 判 断 : 将 每 条 边 的 权重 都 加 上 一 个 常数 不 会 改变 单 点 最 短路 径 问题 的 答案 。 
4.4.2 为 EdgeweightedDigraph 类 实现 toString() 方法 。 
4.4.3 为 稠密 图 实现 一 种 使 用 邻接 矩阵 表示 法 ( 用 二 维 数组 保存 边 的 权重 ， 请 参考 练习 4.3.9) 的 


EdgeWweightedDigraph 类 。 忽 略 平行 边 。 


4.4.4 ”从 tinyEWD.txt 中 (请 见 图 4.4.4 ) 删 去 顶点 7 并 给 出 加 权 有 向 图 中 以 顶点 0 为 起 点 的 最 短路 径 树 ， 


使 用 父 链接 数组 表示 这 棵 树 。 将 图 中 所 有 边 的 方向 反 转 并 回答 相同 的 问题 。 


4.4.5 在 tinyEWD.txt 中 (请 见 图 4.4.4) 改变 边 0 一 2 的 方向 。 画 出 该 加 权 有 向 图 中 以 顶点 2 为 起 点 的 


两 棵 不 同 的 最 短路 径 树 。 


4.4.6 给 出 用 即时 版 本 的 Dijkstra 算法 计算 练习 4.4.5 所 定义 的 图 的 最 短路 径 树 的 轨迹 。 
4.4.7 ”实现 DijkstraSP 的 另 一 个 版 本 ， 支 持 一 个 方法 来 返回 一 幅 加 权 有 向 图 中 从 s 到 t 的 另 一 条 最 短 


路 径 。 ( 如果 从 s 到 的 最 短路 径 只 有 一 条 则 返回 nu11。 ) 


4.4.8 一 幅 有 向 图 的 直径 指 的 是 连接 任意 两 个 顶点 的 所 有 最 短路 径 中 的 最 大 长 度 。 编 写 一 个 DijkstraSP 


的 用 例 ， 找 出 边 的 权重 非 负 的 给 定 EdgeweightedDigraph 图 的 直径 。 


4.4.9 表 4.4.10 来 自 于 一 张 很 早 以 前 出 版 的 公路 地 图 ， 它 显示 的 是 城市 之 间 的 最 短路 径 的 长 度 。 这 张 表 


中 有 一 个 错误 。 改 正 这 个 错误 并 新 建 一 张 表 来 说 明 最 短路 径 是 哪 条 。 


4.4.10 将 练习 4.4.4 中 定义 的 有 向 图 看 作 无 向 图 ， 该 无 向 图 中 的 每 条 边 对 应 有 向 图 中 的 两 条 方向 不 同 但 


权重 相同 的 边 。 为 对 应 的 有 向 图 回答 练习 4.4.6 中 的 问题 。 


4.4.11 使 用 1.4 节 中 的 内 存 使 用 模型 评估 用 EdgeweightedDigraph 表示 一 幅 含 有 三 个 顶点 和 已 条 边 的 


图 所 需 的 内 存 。 


4.4.12 修改 42 节 中 的 DirectedCycle 类 和 Topological 类 ， 使 之 使 用 本 节 中 的 EdgeweightedDigraph 


类 和 DirectedEdge 类 的 API 并 实现 EdgeweightedCycleFinder 类 和 EdgeWeightedTopological 类 。 


4.4.13 ”从 tinyEWD.txt 中 (请 见 图 4.4.4 ) 删 去 边 5 一 7， 用 Dijkstra 算法 计算 所 得 的 有 向 图 的 最 短路 径 


树 并 按照 正文 中 的 样式 给 出 算法 的 轨迹 。 
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表 4.4.10 
首 风 维 间 捧 |。 成 特 里 。 。 新 他 诺 威 治 
普罗 维 登 斯 一 53 | 54 | 48 
威 斯 特 里 53 一 18 101 
新 伦敦 54 18 一 12 
诺 威 治 48 101 | 2 Eng 














4.4.14 给 出 使 用 4.4.6.1 节 和 4.4.6.2 节 的 两 种 尝试 处 理 图 4.4.19 的 tinyEWDn.txt 所 得 到 的 路 径 。 
4.4.15 如 果 从 项 点 s 到 v 的 路 径 上 存在 一 个 负 权重 环 ， 调 用 Bellman-Ford 算法 的 pathTo(v) 方法 会 发 
生 什么 ? 
4.4.16 假设 用 EdgeweightedGraph 中 的 每 条 边 Edge 都 替换 为 两 条 ( 两 个 方向 各 一 条 ) Directed- 
Edge 的 方式 将 EdgeweightedGraph 类 转化 为 EdgeweightedDigraph 类 ( 如 答疑 中 关于 
Dijkstra 算 法 的 部 分 所 述 ) 然 后 再 使 用 Bellman-Ford 算 法 处 理 它 。 说 明 为 什么 这 种 方法 大 错 特 错 。 
4.4.17 在 Bellman-Ford 算法 中 如 果 一 个 顶点 在 同一 轮 中 被 两 次 加 入 队列 会 发 生 什么 ? 
解答 : 算法 所 需 的 运行 时 间 将 会 达到 指数 级 。 例 如 ， 描 述 一 幅 边 的 权重 全 部 为 -1 的 加 权 
有 向 完全 图 中 Bellman-Ford 算法 的 执行 情况 。 
4.4.18 编写 一 个 CPM 的 用 例 来 打印 出 所 有 的 关键 路 径 。 
4.4.19 找 出 正文 中 的 例子 里 权重 最 低 的 环 ( 即 最 佳 套 汇 机 会 ) 。 
4.4.20 从 网 上 或 者 报纸 上 找到 一 张 汇 率 表 并 用 它 构造 一 张 套 汇 表 。 注 意 : 不 要 使 用 根据 若干 数据 计算 
得 出 的 汇率 表 ， 它 们 的 精度 有 限 。 附 加 题 ， 从 汇率 市 场 上 赚 点 外 快 ! 
4.4.21 用 Bellman-Ford 算法 计算 练习 4.4.5 中 的 加 权 有 向 图 的 最 短路 径 树 并 按照 正文 中 的 样式 给 出 算法 685 
的 轨迹 。 687 


















图 提高 是 


4.4.22 顶点 的 权重 。 证 明 ， 要 得 到 顶点 也 有 非 负 权重 的 加 权 有 向 图 中 的 最 短路 径 ( 路 径 的 权重 为 路 径 
上 的 顶点 权重 之 和 ) ， 可 以 通过 构造 一 幅 只 有 边 含有 权重 的 加 权 有 向 图 解决 。 

4.4.23 给 定 两 点 的 最 短路 径 。 设 计 并 实现 一 份 API， 使 用 Dijkstra 算法 的 改进 版 本 解决 加 权 有 向 图 中 给 
定 两 点 的 最 短路 径 问题 。 

4.4.24 多 起 点 最 短路 径 。 设 计 并 实现 一 份 AP1， 使 用 Dijkstra 算法 解决 加 权 有 向 图 中 的 多 起 点 最 短路 径 
问题 ， 其 中 边 的 权重 均 为 正 : 给 定 一 组 起 点 ， 找 到 相应 的 最 短路 径 森 林 并 实现 一 个 方法 为 用 例 
返回 从 任意 起 点 到 达 每 个 顶点 的 最 短路 径 。 提 示 : 添加 一 个 伪 顶 点 和 从 该 顶点 指向 每 个 起 点 的 
一 条 权重 为 零 的 边 ， 或 者 在 初始 化 时 将 所 有 起 点 加 入 优先 队列 并 将 它们 在 distTo[] 中 对 应 的 值 
均 设 为 0。 

4.4.25 两 个 项 点 集合 之 间 的 最 短路 径 。 给 定 一 幅 边 的 权重 均 为 正 的 有 向 图 和 两 个 没有 交集 的 顶点 集 8 
和 7， 找到 从 3 中 的 任意 顶点 到 达 了 中 的 任意 项 点 的 最 短路 径 。 你 的 算法 在 最 坏 情 况 下 所 需 的 时 
间 应 该 与 Elogy 成 正比 。 
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4.4.26 


4.4.27 


4.4.28 


4.4.29 


4.4.30 


4.4.31 


4.4.32 


4.4.35 


4.4.36 


4.4.37 


4.4.38 


稠密 图 中 的 单 点 最 短路 径 。 实 现 另 一 个 版 本 的 Dijkstra 算法 ， 使 之 能 够 在 与 态 成 正比 的 时 间 内 
在 一 幅 稠 密 的 加 权 有 向 图 中 计算 出 给 定 顶 点 的 最 短路 径 树 。 请 使 用 邻接 矩阵 法 表示 稠密 图 ( 请 
参考 练习 4.4.3 和 练习 4.3.29 ) 。 
欧 拉 图 中 的 最 短路 径 。 已 知 图 中 的 顶点 均 在 平面 上 ， 修 改 API 以 提高 Dijkstra 算法 的 性 能 。 
有 向 无 环 图 中 的 最 长 路 径 。 重 新 实现 Acyc1icLP 类 ， 根据 命 题解 决 加权 有 向 无 环 图 中 的 最 长 
路 径 问题 。 
一 般 最 优 性 。 完 成 命题 W 的 证 明 ， 说 明 如 果 存 在 从 s 到 v 的 有 向 路 径 且 从 s 到 v 的 任意 路 径 上 
的 所 有 顶点 都 不 在 任意 负 权重 环 上 , 那么 必然 存在 一 条 从 s 到 v 的 最 短路 径 ( 提示 : 参考 命题 P ) 。 
含有 负 权 重 环 的 图 中 的 任意 项 点 对 之 间 的 最 短路 径 。 参 考 4.4.4.3 节 框 注 “ 任 意 顶 点 对 之 间 的 
最 短路 径 ” 所 实现 的 不 含 负 权重 环 的 图 中 任意 顶点 对 之 间 的 最 短路 径 问 题 并 设计 一 份 API。 使 
用 Bellman-Ford 算法 的 一 个 变种 来 确定 权重 数组 pi [] ， 使 得 对 于 任意 边 v 一 w， 边 的 权重 加 上 
pi[v] 和 pi [w] 之 差 的 和 非 负 。 然 后 更 新 所 有 边 的 权重 ， 使 得 Dijkstra 算法 可 以 在 新 图 中 找 出 所 
有 的 最 短路 径 。 
线 图 中 任意 顶点 对 之 间 的 最 短路 径 。 给 定 一 幅 加 权 线 图 ( 无 向 连通 图 ， 除 了 两 个 端点 度数 为 1 
之 外 所 有 顶点 的 度数 为 2) ， 给 出 一 个 算法 在 线性 时 间 内 对 图 进行 预 处 理 并 在 常数 时 间 内 返回 任 
意 两 个 顶点 之 间 的 最 短路 径 。 
启发 式 的 父 结 点 检查 。 修 改 Bellman-Ford 算法 ， 仅 当 项 点 v 在 最 短路 径 树 中 的 父 结 点 
edgeTo[v] 目前 不 在 队列 中 时 才 访问 v。Cherkassky 、Goldberg 和 Radzik 在 实践 中 发 现 这 种 启发 
式 的 做 法 十 分 有 帮助 。 证 明 这 种 方法 能 够 正确 的 计算 出 最 短路 径 且 在 最 坏 情况 下 的 运行 时 间 和 
EV 成 正比 。 
网 格 图 中 的 最 短路 径 。 给 定 一 个 NxN 的 正 整数 矩阵 , 找到 从 (0,0) 到 (N-1, N-1) 的 最 短路 径 ， 
路 径 的 长 度 即 为 路 径 中 所 有 正 整 数 之 和 。 在 只 能 向 右 和 向 下 移动 的 限制 下 重新 解答 这 个 问题 。 
单调 最 短路 径 。 给 定 一 幅 加 权 有 向 图 ， 找 出 从 s 到 其 他 每 个 顶点 的 单调 最 短路 径 。 如 果 一 条 路 
径 上 的 所 有 边 的 权重 是 严格 单调 递增 或 递减 的 ， 那 么 这 条 路 径 就 是 单调 的 。 这 样 的 路 径 应 该 是 
简单 的 ( 不 包含 重复 项 点 ) 。 提 示 : 按照 权重 的 升序 放松 所 有 边 并 找到 一 条 最 佳 路 径 ， 然后 按 
照 权重 的 降序 放松 所 有 边 再 找到 另 一 条 最 佳 路 径 。 
双 调 最 短路 径 。 给 定 一 幅 有 向 图 ， 找 到 从 s 到 其 他 每 个 顶点 的 双 调 最 短路 径 ( 如 果 存 在 ) 。 如 
果 从 s 到 t 的 路 径 上 存在 一 个 中 间 项 点 v 使 得 从 s 到 v 中 的 所 有 边 的 权重 均 严格 单调 递增 且 从 
v 到 t 中 的 所 有 边 的 权重 均 严 格 单调 递减 ， 那 么 这 就 是 一 条 双 调 路 径 。 这 样 的 路 径 应 该 是 简单 的 
(不 包含 重复 顶点 ) 。 
邻居 顶点 。 编 写 一 个 SP 的 用 例 ， 找 出 一 幅 给 定 加 权 有 向 图 中 和 一 个 给 定 顶 点 的 距离 在 4 之 内 的 
所 有 顶点 。 你 的 算法 所 需 的 运行 时 间 应 该 与 由 这 些 顶 点 和 依附 于 它们 的 边 组 成 的 子 图 的 大 小 以 
及 (用 于 初始 化 数据 结构 ) 中 的 较 大 者 成 正比 。 
关键 边 。 给 出 一 个 算法 来 找到 给 定 的 加 权 有 向 图 中 的 一 条 边 ， 删 去 这 条 边 使 得 给 定 的 两 个 顶点 
之 间 的 最 短 距离 的 增加 值 最 大 。 
教 感度。 给 定 一 幅 加 权 有 向 图 和 一 对 顶点 s 和 t+t， 编 写 一 个 SP 的 用 例 对 该 图 中 的 所 有 边 进行 敏 
感度 分 析 : 计算 一 个 Vx VV 的 布尔 矩阵 ， 对 于 任意 的 v 和 w， 当 v 一 w 为 加 权 有 向 图 中 的 一 条 
边 且 增 加 v 一 w 的 权重 不 会 增加 从 s 到 t 的 最 短路 径 的 权重 时 ，v 行 w 列 的 值 为 true， 否 则 为 


false, 
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延 时 Dijkstra 算法 的 实现 。 根 据 正文 实现 Dijkstra 算法 的 延 时 版 本 。 

瓶颈 最 短路 径 树 。 请 证 明 一 幅 无 向 图 中 的 一 棵 最 小 生成 树 等 价 于 该 图 中 的 一 棵 瓶颈 最 短路 径 树 ; 

对 于 任意 一 对 顶点 v 和 w， 该 树 都 含有 一 条 连接 它们 的 路 径 且 其 中 的 最 长 边 是 所 有 连接 两 点 的 路 

径 中 最 短 的 。 

双向 搜索 。 基 于 算法 4.9 的 代码 为 给 定 两 点 的 最 短路 径 问题 实现 一 个 类 ， 但 在 初始 化 时 将 起 点 和 

终点 都 加 入 优先 队列 。 这 么 做 会 使 最 短路 径 树 从 两 个 顶点 同时 开始 生长 ， 你 的 主要 任务 是 决定 
两 棵 树 相 遇 时 应 该 怎么 办 。 

最 坏 情况 ( Dijkstra 算法 ) 。 找 出 含有 个 顶点 和 巨 条 边 的 一 组 图 ， 使 得 Dijkstra 算法 处 理 它们 

所 需 的 运行 时 间 为 最 坏 情况 。 

负 权 重 环 的 检测 。 假 设 为 算法 4.11 加 入 了 一 个 构造 函数 ， 它 和 已 有 的 构造 函数 的 区 别 仅 在 于 
不 需要 第 二 个 参数 并 将 distTo[] 中 的 所 有 元 素 初始 化 为 0。 证 明 ， 如 果 用 例 调用 的 是 这 个 

构造 函数 ， 那 么 当 且 仅 当 图 中 含有 一 个 负 权 重 环 时 ，hasNegativeCycle() 才 会 返回 true。 
(negativeCycle() 会 返回 那个 负 权 重 环 。) 

解答 : 向 原 图 添加 一 个 新 的 起 点 以 及 从 该 起 点 指向 所 有 其 他 顶点 的 权重 为 0 的 边 。 在 一 轮 放松 

之 后 ，distTo[] 中 的 所 有 元 素 的 值 均 会 变 为 0， 从 新 起 点 开始 寻找 一 个 负 权 重 环 和 在 原 图 中 寻 

找 负 权 重 环 是 等 价 的 。 

最 坏 情 况 ( Bellman-Ford 算法 ) 。 找 出 一 组 图 ， 使 得 算法 4.11 的 运行 时 间 与 VE 成 正比 。 

快速 Bellman-Ford 算法 。 对 于 边 的 权重 为 整数 旦 绝对 值 不 大 于 某 个 常数 的 特殊 情况 ， 给 出 
一 个 解决 一 般 的 加 权 有 向 图 中 的 单 点 最 短路 径 问 题 的 算法 ， 其 所 需 的 运行 时 间 低 于 线性 对 数 
级 别 。 

动画 。 编 写 一 段 程序 将 Dijkstra 算法 用 动画 表现 出 来 。 
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4.4.53 


随机 加 权 有 向 稀疏 图 。 修 改 你 为 练习 4.3.34 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 

随机 加 权 有 向 欧 拉 图 。 修 改 你 为 练习 4.3.35 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 

随机 加 权 有 向 网 格 图 。 修 改 你 为 练习 4.3.36 给 出 的 解答 ， 随 机 指定 每 条 边 的 方向 。 

负 权 重 边 !。 修 改 你 的 随机 加 权 有 向 图 生成 器 ， 通 过 调整 比例 将 边 的 权重 控制 在 在 x 和 ?之 间 (x 
和 ?都 在 -1 和 1 之 间 ) 。 

负 权重 边 I。 修改 你 的 随机 加 权 有 向 图 生成 器 ， 将 固定 比例 (此 值 由 用 例 指定 ) 的 边 的 权重 取 反 
来 生成 负 权 重 的 边 。 

负 权 重 边 [LI。 编 写 一 段 程序 ， 调 用 你 的 加 权 有 向 图 生成 器 ， 尽 可 能 为 大 范围 的 VV 和 值 生成 多 
幅 加 权 有 向 图 ， 保 证 图 中 大 部 分 边 的 权重 为 负 且 只 有 若干 个 负 权重 环 。 

测试 所 有 的 算法 并 研究 所 有 图 的 模型 的 所 有 参数 是 不 现实 的 。 请 为 下 面 的 每 一 道 题 都 编写 一 段 
程序 来 处 理 从 输入 得 到 的 任意 图 。 这 段 程序 可 以 调用 上 面 的 任意 生成 器 并 对 相应 的 图 模型 进行 
实验 。 你 可 以 根据 上 次 实验 的 结果 自己 作出 判断 来 选择 不 同 实验 。 陈 述 结果 以 及 由 此 得 出 的 任 
何 结论 。 

预测 。 请 估计 你 的 计算 机 和 程序 系统 使 用 Dijkstra 算法 在 10 秒 钟 之 内 能 够 计算 出 图 中 所 有 的 最 
短路 径 的 图 的 最 大 规模 ， 其 中 £=10VY， 误 差 在 10 倍 以 内 。 
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延 时 的 代价 。 对 于 各 种 图 的 模型 ， 运 行 实验 并 根据 经 验 比 较 Dijkstra 算法 的 延 时 版 本 和 即时 版 本 
的 性 能 差异 。 

Johnson 算法 。 使 用 一 个 d 向 堆 实 现 优先 队列 。 对 于 各 种 加 权 有 向 图 的 模型 ， 找 到 d 的 最 优 值 。 
套 汇 模型 。 实 现 一 个 模型 来 生成 随机 的 套 汇 问题 。 目 标 是 尽量 生成 与 练习 4.4.20 中 相似 表格 。 
最 后 期 限 限 制 下 的 并 行 任务 调度 模型 。 实 现 一 个 模型 来 生成 随机 的 最 后 期 限 限制 下 的 并 行 任务 
调度 问题 。 目 标 是 尽量 生成 复杂 但 可 以 解决 的 问题 。 
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我 们 通过 交流 成 串 的 字符 进行 沟通 , 所 以 无 数 的 重要 而 熟悉 的 应 用 软件 都 是 基于 字符 串 处 理 的 。 
本 章 中 ， 我 们 会 考察 一 些 经 典 算法 ， 解 决 以 下 应 用 领域 背后 的 计算 问题 。 

信息 处 理 。 当 你 根据 一 个 给 定 的 关键 字 搜 索 网 页 时 ， 就 是 在 使 用 一 个 字符 串 处 理应 用 程序 。 在 
现代 世界 中 ， 可 以 说 所 有 的 信息 都 是 用 一 系列 字符 串 表 示 的 ， 而 对 它们 进行 处 理 的 都 是 非常 重要 的 
字符 串 处 理应 用 程序 。 

基因 组 学 。 计 算 生物 学 家 的 一 项 工作 就 是 根据 密码 子 将 DNA 转换 为 由 4 个 碱 基 (A、C、T 和 G) 
组 成 的 ( 非常 长 的 ) 字 符 串 。 近 些 年 来 人 类 构建 起 来 的 庞大 的 基因 数据 库 已 经 能 够 描述 各 种 活体 器 官 ， 
因此 字符 串 处 理 已 经 成 为 了 现在 计算 生物 学 研究 的 基石 。 

通信 系统 。 无 论 你 是 在 发 送 短信 、 电 子 邮 件 或 是 下 载 电子 书 ， 都 是 在 将 字符 串 从 一 个 地 方 传送 到 
另 一 个 地 方 。 以 此 为 目标 的 字符 串 处 理应 用 程序 是 字符 串 处 理 算法 开发 的 源 动力 。 

编程 系统 。 程 序 是 由 字符 串 组 成 的 。 编 译 器 、 解 释 器 等 其 他 能 够 将 程序 转换 为 机 器 指令 的 软件 
都 是 使 用 复杂 的 字符 串 处 理 技术 的 重要 应 用 软件 。 事 实 上 ， 所 有 的 书面 语言 都 是 由 字符 串 表达 的 。 
另外 ， 开 发 字符 串 处 理 算法 的 另 一 个 动力 来 源 在 于 形式 语言 理论 ， 它 研究 的 是 对 不 同类 型 的 字符 串 
集合 的 描述 。 

这 几 个 非常 有 意义 的 示例 说 明了 字符 串 处 理 算法 的 重要 性 和 应 用 领域 的 多 样 性 。 

本 章 的 结构 如 下 : 在 介绍 了 字符 串 的 基本 性 质 以 后 ， 我 们 会 在 5.1 节 和 5.2 节 中 再 次 遇 到 第 2 
章 和 第 3 章 学 过 的 排序 和 查找 API。 当 使 用 字符 串 作为 键 时 ， 能 够 利用 键 的 特殊 性 质 的 算法 将 比 之 
前 学 习 过 的 算法 更 快 更 灵活 。 在 5.3 节 中 ， 拒 们 会 学 习 子 字符 囊 查 找 算法 ， 包 括 由 Knuth、Morris 
和 Pratt 发 明 的 一 个 著名 的 算法 。 在 5.4 节 中 会 介绍 正则 表达 式 ， 它 是 模式 匹配 问题 的 基础 ， 是 一 个 

- 般 化 了 的 子 字符 申 查找 问题 , 也 是 搜索 工具 grep 的 核心 。 这 些 经 典 的 算法 的 基础 是 两 个 基本 概念 ， 
分 别 叫做 形式 语言 和 确定 有 限 状态 自动 机 。5.5 节 主 要 介绍 了 一 个 重要 应 用 : 数据 压缩 ， 即 尝试 将 
一 个 字符 串 的 长 度 缩短 到 最 小 程度 。 


5.0.1 游戏 规则 

为 了 简洁 高 效 ， 我 们 将 使 用 Java 的 String 类 来 表示 字符 串 ， 但 我 们 将 有 意识 地 尽量 少 使 用 该 
类 的 方法 以 使 算法 能 够 适用 于 其 他 字符 串 数据 类 型 以 及 其 他 编程 语言 。 我 们 已 经 在 1.2 节 中 详细 介 
绍 过 各 种 字符 串 ， 这 里 简要 回顾 一 下 它们 最 主要 的 性 质 。 

字符 。String 是 由 一 系列 字符 组 成 的 。 字 符 的 类 型 是 char， 可 能 有 2 个 值 。 数 十 年 以 来 ， 
程序 员 的 注意 力 都 局 限于 7 位 ASCI[ 码 (请 见 表 5.5.4 ) 或 是 8 位 扩展 ASCIL 码 表示 的 字符 ， 但 许 
多 现代 的 应 用 程序 都 已 经 需要 使 用 16 位 Unicode 编码 了 。 

不 可 变性 。String 对 象 是 不 可 变 的 ， 因 此 可 以 将 它们 用 于 赋值 语句 、 作 为 函数 的 参数 或 是 返 
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回 值 ， 而 不 用 担心 它们 的 值 会 发 生变 化 。 
索引 。 我 们 最 常 完成 的 操作 就 是 从 某 个 字符 事 中 提取 一 个 特定 的 字符 ， 即 Java 的 String 类 

的 charAtQ 方法。 我 们 希望 charAtOQ 方法 能 够 在 常数 时 间 内 完成 ， 就 好 像 字符 串 是 保存 在 一 个 

char[] 数组 中 一 样 。 根 据 第 1 章 中 的 讨论 ， 这 种 期 望 是 非常 合理 的 。 
长 度 。 在 Java 中 ，String 类 型 的 

1ength() 方法 实现 了 获取 字符 囊 的 长 

度 的 操作 。 同 样 ， 我 们 也 希望 1engtO 012345678 910112 

方法 能 够 在 常数 时 间 内 完成 ， 这 也 是 合 ss 一 ATTACKATDAWN 

情 合 理 的 ， 尽 管 在 某 些 编程 环境 中 实现 


s.lengthO 





es s.charAt(3) 

这 一 点 并 不 容易 。 s.substring(7, 11) 
子 字符 串 。Java 的 substring() 方 

法 实现 了 提取 特定 的 子 字符 串 的 操作 。 图 5.0.1 String 类 型 的 基本 常数 时 间 操 作 


同样 ， 我 们 也 希望 这 个 方法 能 够 在 常数 
时 间 内 完成 ，Java 的 标准 实现 也 做 到 了 这 一 点 。 如 果 你 还 不 熟悉 substring() 方法 和 为 什么 它 只 
需要 常数 时 间 ， 请 务必 重新 阅读 1.2 节 中 讨论 的 Java 字符 囊 的 标准 实现 ( 请 见 表 1.2.7 和 图 1.4.10 ) 。 

字符 串 的 连接 。 在 Java 中 通过 将 一 个 字符 串 追 加 到 另 一 个 字符 囊 的 末尾 创建 一 个 新 字符 囊 的 操 
作 是 一 个 内 党 的 操作 ( 使 用 “+” 运 算 符 ) ， 所 需 的 时 间 与 结果 字符 串 的 长 度 成 正比 。 例 如 ,我 们 
会 避免 将 字符 一 个 一 个 地 追加 到 字符 串 中 , 因为 在 Java 里 这 个 过 程 所 需 的 时 间 将 会 是 平方 级 别 的 ( 为 
此 Java 提供 了 一 个 StringBuilder 类 ， 请 见 图 5.0.1 ) 。 

字符 数组 。Java 的 String 类 显然 并 不 是 一 个 原始 数据 类 型 。Java 的 标准 实现 提供 了 刚才 提 到 
的 几 个 操作 以 供 客户 端 程序 调用 。 但 与 之 相反 ,我 们 将 要 学 习 的 许多 算法 都 能 够 处 理 字符 串 的 低级 
表示 ， 比 如 char 类 型 的 数组 ， 而 且 许 多 字符 串 的 用 例 程序 也 更 愿意 使 用 这 种 表示 ， 因 为 它 消耗 的 
空间 更 小 ,访问 所 需 的 时 间 更 少 。 在 我 们 将 要 学 习 的 几 个 算法 中 ， 将 字符 串 从 一 种 表示 转换 成 男 一 
种 表示 的 代价 甚至 比 算法 的 运行 成 本 更 高 。 如 表 5.0.1 所 示 ， 处 理 这 两 种 表示 所 用 的 代码 的 差别 是 
很 小 的 (substring0) 方法 比较 复杂 ， 此 处 省 略 ) ， 所 以 无 论 使 用 哪 种 表示 方式 都 不 会 影响 读者 对 
算法 的 理解 。 





表 5.0.1 在 Java 中 表示 字符 串 的 两 种 方法 





操作 字符 数组 Java 字符 串 
声明 Char[] a String s 
根据 索引 访问 字符 a[i] Ss.charAt(i) 
获取 字符 串 长 度 a.length s.length() 
表示 方法 转换 a=5. toCharArray(O); S=new String(a); 


理解 这 些 操作 的 运行 效率 是 理解 许多 字符 串 处 理 算法 效率 的 关键 部 分 。 并 不 是 所 有 编程 语 
言 实现 的 String 类 都 能 有 这 样 的 性 能 。 例 如 ， 查 找 子 字符 串 和 获取 字符 串 长 度 的 操作 在 C 语 
言 中 所 需 的 时 间 就 与 字符 串 中 的 字符 数量 成 正比 。 修 改 我 们 的 算法 并 使 之 适用 于 这 样 的 编程 语 
言 是 完全 可 以 的 【实现 一 个 类 似 Java 的 String 类 的 抽象 数据 类 型 ) ， 但 这 也 意味 着 不 同 的 挑 
战 和 机 遇 。 

在 正文 中 ,我 们 主要 会 使 用 String 数据 类 型 。 我 们 会 经 常 调 用 通过 索引 访问 字符 串 中 的 字 
符 操作 和 获取 字符 串 长 度 的 操作 ， 有 时 会 使 用 提取 子 字符 串 或 是 连接 字符 串 的 操作 。 我 们 还 会 在 
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本 书 的 网 站 上 提供 相应 的 使 用 char 数组 的 代码 。 在 性 能 优先 的 应 用 场景 中 ， 用 例 在 这 两 种 表示 
方法 之 间 权 衡 的 常常 是 访问 字符 的 成 本 ( 在 一 般 的 Java 实现 中 ，a[i] 很 可 能 比 s.charAt(i) 要 
快 很 多 ) 。 


5.0.2 ”字母 表 
一 些 应 用 程序 可 能 会 对 字符 串 的 字母 表 作 出 限制 。 在 这 些 应 用 中 ， 可 能 常常 会 需要 一 个 API 如 
表 5.0.2 所 示 的 Alphabet 类 。 


表 5.0.2 字母 表 的 API 
public class Alphabet 





Alphabet(String s) 根据 s 中 的 字符 创建 一 张 新 的 字母 表 
char toChar(int index) 获取 字母 表 中 索引 位 置 的 字符 
int toIndex(char c) 获取 < 的 索引 , 在 0 到 R-1 之 间 
boolean contains(char c) C 在 字母 表 之 中 吗 
int RO 基数 (字母 表 中 的 字符 数量 ) 
int 19RO 表示 一 个 索引 所 需 的 位 数 
int[] toIndices(String s) 将 s 转换 为 R 进 制 的 整数 
String toChars(int[] indices) 将 R 进 制 的 整数 转换 为 基于 该 字母 表 的 字符 串 


这 份 API 定义 了 一 个 构造 函数 ， 它 用 一 个 含有 R 个 字符 的 字符 串 参数 指定 了 字母 表 。API 定 
义 了 toChar() 方法 和 toIndex() 方法 来 在 字符 和 0 到 R-1 之 间 的 整 型 值 进行 转换 ( 常数 时 间 ) 。 
它 还 包含 了 contains() 方法 来 检查 给 定 的 字符 是 否 存在 于 字母 表 中 。 方 法 RC) 和 19R() 用 来 获 
取 字 母 表 中 的 字符 数 以 及 表示 它们 所 需 的 位 数 。toIndices() 方法 和 toChars() 方法 能 够 将 由 
字母 表 中 的 字符 组 成 的 字符 串 与 int 数组 相互 转换 。 方 便 起 见 ， 下 面 的 表格 显示 了 各 种 内 置 的 字 
母 表 ， 你 可 以 通过 类 似 Alphabet .UNICODE 的 方式 来 访问 它们 。A1phabet 的 实现 很 简单 ， 我 们 
将 它 留 作 练习 ( 请 见 5.1.12 ) 。 我 们 会 在 表 5.0.3 后 面 的 框 注 “A1phabet 类 的 典型 用 例 ”来 展示 
一 个 它 的 用 例 。 





表 5.0.3 标准 字母 表 





名 称 RO 1gRO 字 符 集 
BINARY 2 1 01 
DNA 4 2 ACTG 
OCTAL 8 3 01234567 
DECIMAL 10 4 0123456789 
HEXADECIMAL 16 4 0123456789ABCDEF 
PROTEIN 20 5 ACDEFGHIKLMNPQRSTVWY 
LOWERCASE 26 5 abcdefghijkimnopqrstuvwxyz 
UPPPERCASE 26 5 ABCDEFGHIJKLMNOPQRSTUVWXYZ 
BASEG4 癌 者 A jklmnopqrstuvwx 
ASCII 128 7 ASCI 字符 集 
EXTENDED_ASCIL 256 3 扩展 ASCII 字符 集 


UNICODE16 65536 16 Unicode 字符 集 
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public class Count 
public static void main(String[] args) 


Alphabet alpha = new Alphabet(args[0]); 
int R = alpha.RO; 
int[] count = new int[R]; 


String s = StdIn.readA110; 
int N = s.lengthO; 


for (int i = 0; i <N; i++) % more abra.txt 
if (alpha.contains(s.charAt(i))) ABRACADABRA! 
count[alpha. toIndex(s.charAt(1))]++; We 
for (int c = 0; c < Ri c++) txt 
StdOut.printin(alpha. toChar(c) 5 
+ " "+ count[c]); B 2 
区 全 
3 D1 
} R2 
Alphabet 类 的 典型 用 例 


字符 索引 数组 。 我 们 使 用 Alphabet 类 的 一 个 最 重要 的 原因 是 字符 索引 的 数组 能 够 提高 算法 的 
效率 。 在 这 个 数组 中 ,用 字符 作为 索引 来 获取 与 之 相关 联 的 信息 。 如 果 要 使 用 Java 的 String 类 ， 
那 就 必须 使 用 一 个 大 小 为 65 536 的 数组 ; 有 了 A1phabet 类 ， 则 只 需要 使 用 一 个 字母 表 大 小 的 数组 
即 可 。 我 们 将 要 学 习 的 一 些 算法 能 够 产生 大 量 的 此 类 数组 。 在 这 种 情况 下 ， 大 小 为 655 36 的 数组 是 
不 可 接受 的 。 例 如 前 面 框 注 中 的 Count 类 ， 它 从 命令 行 接受 一 个 字符 串 并 在 标准 输出 上 打印 输入 的 
每 个 字符 串 的 出 现 频率 。Count 中 用 来 保存 出 现 频率 的 count[] 数组 就 是 一 个 字符 索引 数组 的 示例 。 
你 可 能 会 认为 数组 的 计算 有 些 繁 珊 ， 但 实际 上 它 是 5.1 节 介绍 的 一 系列 快速 排序 算法 的 基础 。 

数字 。 你 可 以 从 几 个 标准 的 Alphabet 类 的 示例 中 看 到 ， 我 们 经 常 要 处 理 字 符 串 形式 的 数字 。 
toIndices() 方法 能 够 将 任意 基于 给 定 的 Alphabet 类 的 String 转换 为 一 个 R 进 制 的 数字 ， 用 一 
个 元 素 均 在 0 到 R-1 之 间 的 int[] 数组 表示 。 在 某 些 情况 下 ， 一 开始 就 进行 这 样 的 转换 可 以 使 代 
码 更 简洁 ， 因 为 任意 数字 都 能 作为 一 个 字符 串 索引 数组 中 的 索引 。 例 如 ， 如 果 我 们 已 知 输 入 中 仅 含 
有 字母 表 中 的 字母 ， 那 就 可 以 将 Count 中 的 内 循环 替换 为 下 面 这 段 更 加 简洁 的 代码 : 

int[] a = alpha.toIndices(s); 





for (int 1 = 0; 1 < Ni i++) S102502853 


Count[a[i]l+t; 5897932384 
其 中 ,我 们 将 R 称 为 基数 ， 即 进 制 数 。 我 们 介绍 的 几 种 算 。 5264388327 
法 也 常常 被 称 为 “基数 " 方法 ,因为 它们 一 次 只 处 理 一 位 数 。 。 … 。m 的 100 000 公 ] 


尽管 使 用 Alphabet 这 样 的 数据 类 型 能 够 为 字符 串 处 。 % java Count 0123456789 < pi .txt 
理 算法 带 来 许多 好 处 ( 特别 是 对 于 较 小 的 字母 表 ) ,但 是 ”9 9999 


本 书 中 并 没有 实现 基于 通用 字母 表 Alphabet 类 得 到 的 字 。 3908” 
符 串 类 型 ， 这 是 因为 : 2 
口 大 多 数 程 序 使 用 的 都 是 String 类 型 ; 5 10026 
口 将 字符 申 转化 为 索引 或 是 由 索引 得 到 字符 串 常常 。 5 10028 

会 落 人 内 循环 中 ， 这 会 大 幅 降 低 实现 的 性 能 ; 8 9978 

口 这 会 使 代码 更 加 复杂 ， 也 更 加 难以 理解。 RR 


因此 我 们 仍然 会 使 用 String 类 ， 在 代码 中 使 用 常数 R = 256 并 在 分 析 中 将 R 作为 参数 。 在 适当 
的 时 候 我 们 会 讨论 通用 字母 表 的 性 能 。 本 书 的 网 站 提供 了 基于 Alphabet 类 的 各 种 算法 的 完整 实现 。 
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5.1 字符 串 排序 


对 于 许多 排序 应 用 ， 决 定 顺序 的 键 都 是 字符 串 。 本 节 中 ,我 们 将 会 考察 能 够 利用 字符 串 的 特殊 
性 质 将 字符 趾 键 排序 的 方法 ， 它 们 将 比 第 2 章 学 过 的 通用 排序 方法 效率 更 高 。 

我 们 将 学 习 两 类 完全 不 同 的 字符 串 排序 方法 。 它 们 都 是 为 程序 员 服务 了 几 十 年 的 强大 方法 。 

第 一 类 方法 会 从 右 到 左 检查 键 中 的 字符 。 这 种 方法 一 般 被 称 为 低位 优先 ( LSD ) 的 字符 串 排序 。 
使 用 数字 ( digit ) 代替 字符 ( character ) 的 原因 要 追溯 到 相同 方法 在 各 种 数字 类 型 中 的 应 用 。 如 果 
将 一 个 字符 串 看 作 一 个 256 进 制 的 数字 ， 那 么 从 右 向 左 检查 字符 串 就 等 价 于 先 检查 数字 的 最 低位 。 
这 种 方法 最 适合 用 于 键 的 长 度 都 相同 的 字符 串 排序 应 用 。 

第 二 类 方法 会 从 左 到 右 检查 键 中 的 字符 ， 首 先 查 看 的 是 最 高 位 的 字符 。 这 些 方法 通常 称 为 高 位 
优先 ( MSD ) 的 字符 串 排序 一 一 本 节 将 会 学 习 两 种 此 类 算法 。 高 位 优先 的 字符 串 排序 的 吸引 人 之 处 
在 于 ， 它 们 不 一 定 需要 检查 所 有 的 输入 就 能 够 完成 排序 。 高 位 优先 的 字符 串 排序 和 快速 排序 类 似 ， 
因为 它们 都 会 将 需要 排序 的 数组 切 分 为 独立 的 部 分 并 递归 地 用 相同 的 方法 处 理子 数组 来 完成 排序 。 







它们 的 区 别 之 处 在 于 高 位 优先 的 字符 串 排序 算法 在 切 分 时 仅 使 用 键 的 第 一 个 字符 ， 而 快速 排序 的 比 
较 则 会 涉及 键 的 全 部 。 习 的 第 一 种 方法 会 将 相同 字符 的 键 划 入 同一 个 切 分 ,第 二 种 方法 则 总 会 


产生 三 个 切 分 ， 分 别 对 应 被 搜索 键 的 第 一 个 字符 小 于 、 等 于 或 大 于 切 分 键 的 第 一 个 字符 的 情况 。 
在 分 析 字 符 串 排序 算法 时 ， 字 母 表 的 大 小 是 一 个 重要 的 因素 。 尽 管 我 们 的 重点 是 基于 扩展 的 

ASCII 字符 集 的 字符 串 ( R=256 ) ,但 也 会 分 析 来 自 较 小 字母 表 的 字符 叫 ( 例如 基因 序列 ) 和 来 自 

较 大 字母 表 的 字符 串 ( 例如 含有 65 536 个 字符 的 Unicode 字母 表 , 它 是 自然 语言 编码 的 国际 标准 ) 。 


5.1.1 键 索引 计数 法 


作为 热身 ， 我 们 先 学 习 一 种 适用 于 小 些 数 键 的 oe 
简单 排序 方法 。 这 种 叫做 键 索引 计数 的 方法 本 身 就 Anderson 2 Harris 1 
很 实用 ， 同 时 也 是 本 节 中 将 要 学 习 的 两 三 种 字符 串 De Mo 站 
排序 算法 的 基础 。 Garcia 4 Anderson 2 
老师 在 统计 学 生 的 分 数 时 可 能 会 遇 到 以 下 数 Harris 1 Martinez 2 
据 处 理 问题 。 学 生 被 分 为 若干 组 ， 标 号 为 1、2、 Aaekson) cr 
Johnson 4 Robinson 2 
3 等 。 在 某 些 情况 下 ， 我 们 希望 将 全 班 同学 按 组 分 joe 1 3 white 2 
类 。 因 为 组 的 编号 是 较 小 的 整数 ， 使 用 键 索引 计数 Je 2 
:FE Se | gs lartinez vis 
法 来 排序 是 很 合适 的 ， 请 见 图 5.1.1。 为 了 说 明 这 a ns 
种 方法 ， 假 设 数 组 a[] 中 的 每 个 元 素 都 保存 了 一 个 Moore 1 Jones 3 
名 字 和 一 个 组 号 ,其 中 组 号 在 0 到 R-1 之 间 ， 代 码 Roneoa Te 
ai .key0 会 返回 指定 学 生 的 组 号 。 这 种 方法 有 Ti 
4 个 步骤 ,我 们 会 依次 讲解 。 Thomas 4 Johnson 4 
5.1.1.1 频率 统计 Thompson 4 Smith 4 
第 一 步 就 是 使 用 int 数组 count[] 计算 每 个 vr 
键 出 现 的 频率 。 对 于 数组 中 的 每 个 元 素 ， 都 使 用 它 Wilson 4 Wilson 4 
的 键 访问 count[] 中 的 相应 元 素 并 将 其 加 1。 如 果 汪汪 
键 为 r, 则 将 count[r+1] 加 1。 (为 什么 需要 加 1? 小 的 整数 


这 么 做 的 原因 到 下 一 步 你 就 会 明白 了 。 ) 在 图 5.1.2 图 5.1.1 适 于 使 用 键 索引 计数 法 的 典型 情况 
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的 例子 中 ， 首 先 将 count[3] 加 1， 因 为 Anderson 在 第 二 组 中 ， 然 后 会 将 count[4] 加 2， 因 为 
Brown 和 Davis 都 在 第 三 组 中 ， 如 此 继续 。 注 意 ，count[0] 的 值 总 是 0， 在 这 个 示例 中 count[1] 
的 值 也 为 0( 第 零 组 中 没有 学 生 ) 。 
5.1.1.2 将 频率 转换 为 索引 

接 下 来 ,我 们 会 使 用 count[] 来 计算 每 个 键 在 排序 结果 中 的 起 始 索引 位 置 。 在 这 个 示例 中 ， 
因为 第 一 组 中 有 3 个 人 ， 第 二 组 中 有 5 个 人 ， 因 此 第 三 组 中 的 同学 在 排序 结果 数组 中 的 起 始 位 置 为 
8。 一 般 来 说 , 任意 给 定 的 键 的 起 始 索引 均 为 所 有 较 小 的 键 所 对 应 的 出 现 频率 之 和 。 对 于 每 个 键 值 r， 
小 于 r+1 的 键 的 频率 之 和 为 小 于 r 的 键 的 频率 之 和 加 上 count[r] ， 因 此 从 左 向 右 将 count[] 转化 
为 一 张 用 于 排序 的 索引 表 是 很 容易 的 ( 请 见 图 5.1.3 ) 。 





Anderson 2 
Brown 3 
Davis 3 
Garcia 4 
Harris 1 
Jackson 3 
Johnson 4 
Jones 3 
Martin 1 
Martinez 2 
Miller 2 
Moore 1 
Robinson 2 
Smith 4 
Taylor 3 
Thomas 4 
Thompson 4 
White 2 
Williams 3 
Wilson 4 





次 

蓝 

ct et 

Ne 
er da 
te er 


14 6 
20 
0/0 3 81420 


组 号 小 于 3 的 总 人 数 (第 三 组 
在 输出 中 的 起 始 索引 ) 


图 5.1.2 计算 出 现 频率 图 5.1.3 将 频率 转换 为 起 始 索 引 


5.1.1.3 ”数据 分 类 

在 将 count[] 数组 转换 为 一 张 索 引 表 之 后 ， 将 所 有 元 素 ( 学 生 ) 移动 到 一 个 辅助 数组 aux[] 
中 以 进行 排序 。 每 个 元 素 在 aux[] 中 的 位 置 是 由 它 的 键 (组 别 ) 对 应 的 count[] 值 决定 ， 在 移动 
之 后 将 count[] 中 对 应 元 素 的 值 加 1， 以 保证 count[r] 总 是 下 一 个 键 为 r 的 元 素 在 aux[] 中 的 索 
引 位 置 。 这 个 过 程 只 需 遍 历 一 遍 数 据 即 可 产生 排序 结果 ， 如 图 5.1.4 所 示 。 注 意 : 在 我 们 的 一 个 应 
用 中 ， 这 种 实现 方式 的 稳定 性 是 很 关键 的 一 一 键 相同 的 元 素 在 排序 后 会 被 聚集 到 一 起 ， 但 相对 顺序 
没有 变化 ， 请 见 图 5.1.5。 
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i 
0 
1 Anderson 2 Harris 1 
2 9 Brown 3 Martin 1 
3 10 Davis 3 Moore 
4 Garcia 4 Anderson 2 
5 Harris 1 Martinez 2 
6 11 Jackson 3 Miller 2 
7 Johnson 4 Robinson 2 
8 12 Jones 3 White 2 
9 Martin 1 Brown 3 
10 Martinez 2 Davis 3 
11 Miller 2 Jackson 3 
12 Moore 1 Jones 3 
13 Robinson 2 Taylor 3 
14 Smith 4 illiams 3 
15 13 Taylor 3 Garcia 4 
16 Thomas 4 Johnson 4 
17 Thompson 4 Smith 4 
18 White 2 Thomas 4 
19 14 Williams 3 Thompson 4 
Wilson 4 Wilson 4 
3 81420 703 
图 5.1.4 将 数据 分 类 ( 键 为 3 的 条 目 均 突出 显示 ) 704 
分 类 前 
aux[] [We FE ey 
n t ft n 
count[0] count[1] count[2] count[R-1] 
分 类 中 
aux[] | " [| 1 :| 2 SEE -下 -] -JR 
count[o] coumt courtm- 
分 类 后 
auxr][o[ TofiTiTi] TizTzT [2 en 到 
count[o] ou couht[2] count[R-1] 
图 5.1.5 键 索引 计数 法 (分 类 阶段 ) 
5.1.1.4 回 写 


因为 我 们 在 将 元 素 移动 到 辅助 数组 的 过 程 中 完成 了 排序 ， 所 以 最 后 一 步 就 是 将 排序 的 结果 复制 
回 原 数组 中 。 
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命题 A。 键 索引 计数 法 排序 入 个 键 为 0 到 R-1 之 间 的 整数 的 元 素 需 要 访问 数组 11N+ 4R+1 次 。 


证 明 。 根 据 代 码 可 得 ， 初 始 化 数组 会 访问 数组 N+R+1 次 。 在 第 一 次 循环 中 ，N 个 元 素 均 会 使 
计数 器 的 值 加 1( 访 问 数组 2N 次 ) ; 第 二 次 循环 会 进行 R 次 加 法 (访问 数组 2R 次 ) ;第 三 
次 循环 会 使 计数 器 的 值 增 大 入 次 并 移动 N 次 数据 (访问 数组 3N 次 ) ; 第 四 次 循环 会 移动 数 
据 人 次 (访问 数组 2N 次 ) 。 所 有 的 移动 操作 都 维护 了 等 键 元 素 的 相对 顺序 。 


键 索引 计数 法 是 一 种 对 于 小 整数 键 排序 非常 有 

效 却 常 党 被 名 咯 的 排序 方法 。 理 解 它 的 工作 原理 是 ra 
理解 字符 申 排序 的 第 一 步 。 命 题 和 意味 着 键 索引 。 Seri edx new String[N]; 
计数 法 突破 了 MogN 的 排序 算法 运行 时 间 下 限 (之 7/ 半生 山上 和 

前 已 经 证 明 过 ) 。 它 是 怎么 做 到 的 呢 ? 2.2 节 中 的 for (int 1 = 0; i < N; i++) 
命题 1 证 明 的 是 所 需 的 比较 次 数 的 下 限 ( 只 能 通过 /Sount fa] ,KeyO + tt; 
compareTo() 访问 数据 ) 一 一 键 索引 计数 法 不 需要 for Cint r = 0; r < R; r++) 
比较 ( 它 只 通过 key0) 方法 访问 数据 ) 。 只 要 当 R Sou 人 et] + count[n]; 


在 入 的 一 个 常数 因子 范围 之 内 ， 它 都 是 一 个 线性 时 for (int 1 = 0; i < Ni i++) 
aux[count[a[i] .keyO)]++] = a[i]; 


int N = a.length; 


间 级 别 的 排序 方法 。 
for (int 1 = 0; 1 < N; i++) 

5.1.2 ”低位 优先 的 字符 串 排序 ari] = aux[i]; 

我 们 学 习 的 第 一 个 字符 串 排序 算法 叫做 低位 优 键 索引 计数 法 (a[] .key0 为 [0,R) 
先 (LSD ) 的 字符 串 排序 。 考 虑 以 下 应 用 : 假设 有 之 间 的 一 个 整数 ) 
一 位 工程 师 架 设 了 一 个 设备 来 记录 给 定时 间 段 内 某 
条 忙碌 的 高 速 公路 上 所 有 和 车 辆 的 车 牌号 ， 他 希望 知 输入 排序 结果 
道 总 共有 多 少 辆 不 同 的 车 辆 经 过 了 这 段 高 速 公 路 。 4PGC938 1ICK750 
根据 2.1 节 你 可 以 知道 ， 解 决 这 个 问题 的 一 种 简单 2IYE230 。 1ICK750 
方法 就 是 将 所 有 和 车 牌号 排序 ， 然 后 遍历 并 找 出 所 有 rts 
不 同 的 车 牌号 的 数量 ， 如 Dedup 所 示 ( 请 见 3.5.2.1 10HV845 10HV845 


4]ZY524 2IYE230 


节 框 注 “Dedup 过 滤器 ”) 。 车 牌号 由 数字 和 字母 rt 
混合 组 成 ， 因 此 一 般 都 将 它们 表示 为 字符 串 。 在 最 3CI0720 2RLA629 
简单 的 情况 中 ( 例如 图 5.1.6 所 示 的 加 利 福 尼 亚 州 10HV845 3ATW723 
的 车 牌号 ) ， 这 些 字符 串 的 长 度 都 是 相同 的 。 这 SA 8 
种 情况 在 排序 应 用 中 很 常见 一 一 比如 电话 号 码 、 2RLA629 4JZY524 
银行 账号 、IP 地 址 等 都 是 典型 的 定 长 字符 串 。 Mn Pecose 
将 此 类 字符 串 排序 可 以 通过 键 索引 计数 法 来 完 键 的 长 度 

成 ， 如 算法 5.1 (LSD ) 和 其 下 方 的 例子 所 示 。 如 果 均 相同 
字符 串 的 长 度 均 为 玉 ， 那 就 从 右 向 左 以 每 个 位 置 的 图 5.1.6 生生 相生 人 
字符 作为 键 ， 用 键 索 引 计数 法 将 字符 串 排序 态 遍 。 A 


乍 一 看 你 很 难 相信 这 种 方法 能 够 产生 一 个 有 序 的 数 
组 一 一 事实 上 ， 除 非 键 索引 计数 法 是 稳定 的 ， 香 则 这 种 方法 是 行 不 通 的 。 在 研究 以 下 证 明 时 请 记 住 
这 一 点 并 参考 后 面 的 示例 。 


命题 B。 低 位 优先 的 字符 束 排 序 算 法 能 够 稳定 地 将 定 长 字符 串 排序 。 


证 明 。 由 命题 A 可 知 ， 该 命题 完全 依赖 于 键 索引 计数 法 的 实现 是 稳定 的 。 在 将 它们 的 最 后 个 字符 作 
为 键 (用 稳定 的 方式 ) 进行 排序 之 后 ， 可 以 知道 ， 任 意 两 个 键 在 数组 中 的 顺序 都 是 正确 的 ( 只 考虑 这 些 
字符 ) 。 要 么 因为 它们 的 倒数 第 站 个 字符 不 同 ， 所 以 排序 方法 已 经 将 它们 的 顺序 摆 放 正 确 ; 要 么 它们 的 
倒数 第 i 个 字符 相同 , 所 以 由 于 排序 的 稳定 性 它们 仍然 有 序 ( 由 归纳 法 可 知 , 对 于 i-1 这 一 点 仍然 正确 )。 


算法 5.1 低位 优先 的 字符 串 排序 
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public 
{ 
pub 
{ 


要 将 每 个 元 素 均 为 含有 W 个 字符 的 字符 串 数组 a[] 排序 ， 要 进行 W 次 键 索引 计数 排序 : 


class LSD 


1ic static void sort(String[] a, int W) 
// 通过 前 W 个 字符 将 a[] 排序 

int N = a.length; 

int R = 256; 

String[] aux = new String[N]; 


for (int d = W-1; d >= 0; d--) 
人 // 根据 第 d 个 字符 用 键 索引 计数 法 排序 


int[] count = new int[R+1]; // 计算 出 现 频率 


for (int 1 = 0; i < N; i++) 
count[a[i] .charAt(d) + 1]++; 


for (int r = 0; r < Ri r++) // 将 频率 转换 为 索引 


count[r+1] += count[r]; 


for (int 1 = 0; 1 < N; i++) // 将 元 素 分 类 


aux[count[a[i].charAt(d)]++] = a[i]; 


for (int 1 = 0; i < N; i++) // 回 写 


a[i] = aux[i]; 


以 每 个 位 置 的 字符 为 键 排序 一 次 。 


输入 (W=7) 
4PGC938 
2IYE230 
3CI0720 
1ICK750 
10HV845 
4]ZY524 
1ICK750 
3CI0720 
10HV845 
10HV845 
2RLA629 
2RLA629 
3ATW723 


d= 6 d=5 d= 4 d=3 
0 20 230 A629 
0 20 524 A629 
0 23 629 C938 
0 24 629 E230 
0 29 720 K750 
3 29 720 K750 
4 30 723 0720 
5 38 750 0720 
5 45 750 V845 
5 45 845 V845 
8 45 845 V845 
9 50 845 W723 
9 50 938 Y524 


d= 

CK750 
CK750 
GC938 
HV845 
HV845 
HV845 
I0720 
I0720 
LA629 
LA629 
TWw723 
YE230 
ZY524 


d=1 
ATW723 
CI0720 
CI0720 
ICK750 
ICK750 
IYE230 
JZY524 
OHV845 
OHV845 
OHV845 
PGC938 
RLA629 
RLA629 


d=0 
1ICK750 
1ICK750 
10HV845 
lOHV845 
lOHV845 
2IYE230 
2RLA629 
2RLA629 
3ATW723 
3CI0720 
3CI0720 
4JZY524 
4PGC938 


从 右 向 左 ， 


输出 
1ICK750 
1ICK750 
lOHV845 
10HV845 
1OHV845 
2IYE230 
2RLA629 
2RLA629 
3ATW723 
3CI0720 
3CI0720 
4]ZY524 
4PGC938 
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证 明 该 命题 的 另 一 种 方法 是 向 前 看 : 如 果 有 两 个 键 ， 它 们 中 还 没有 被 
检查 过 的 字符 都 是 完全 相同 的 ， 那 么 键 的 不 同 之 处 就 仅 限于 已 经 被 检查 过 的 。 *5 vA 42 
字符 。 因 为 两 个 键 已 经 被 排序 过 ， 所 以 出 于 稳定 性 它们 将 一 直 保持 有 序 。 另 SA +A 23 
外 ， 如 果 还 没 被 检查 过 的 部 分 是 不 同 的 那么 已 经 被 检查 过 的 字符 对 于 两 者 。 ak 42 5 
的 最 终 顺 序 没有 意义 之 后 的 某 轮 处 理会 根据 更 高 位 字符 的 不 同 修正 这 对 键 。 “aQ ?2 47 
的 顺序 。 4] v3 «9 

老式 的 卡片 打 孔 排序 机 使 用 的 就 是 低位 优先 的 基数 排序 法 。 这 类 机 器 *A 。3 。 410 
开发 于 20 世纪 初期 ， 比 用 计算 机 处 理 商 业 数据 的 时 代 早 了 数 十 年 。 这 种 机 $9 ?3 0 
器 能 够 根据 卡片 上 被 选 定 列 中 孔 的 模式 将 一 组 卡片 分 别 放 入 10 个 盒子 中 。 +5 ?4 人 
如 果 多 个 数字 被 打 在 这 组 卡片 的 多 个 列 上 ， 操 作 员 将 所 有 卡片 排序 的 方法 。 *K v4 v2 
就 是 先 根据 最 右边 的 数字 排序 ， 然 后 将 所 有 卡片 按照 顺序 盔 好 并 再 次 根据 5 $5 %4 
倒数 第 二 个 数字 排序 ， 如 此 这 般 直 到 排序 第 一 个 数字 为 止 。 将 所 有 已 被 排 ”$39 ?5 v5 
序 的 卡片 按 顺 序 再 次 从 放 就 是 一 个 稳定 的 过 程 ， 键 案 引 计数 法 模仿 了 这 个 “2 *5 v7 
过 程 。 在 整个 20 世纪 70 年 代 ， 这 个 版 本 的 低位 优先 基数 排序 法 不 仅 在 商 39 6 »9 
业 领 域 非常 重要 ， 许 多 严谨 的 程序 员 ( 和 学 生 ! ) 也 使 用 它 ， 因 为 他 们 需 。 “7 “5 vu 
要 将 程序 保存 在 打 了 和 孔 的 卡片 上 (每 张 卡片 上 一 行 ) 并 且 会 在 一 组 完整 表 “4 7 vQ 
示 某 个 程序 的 卡片 的 最 后 几 列 打上 序号 ， 这 样 即使 卡片 散乱 之 后 也 能 将 它 。 XA 7 YA 
们 重新 按 顺序 排列 。 这 也 是 一 种 将 扑克 牌 排序 的 简洁 方法 : 将 所 有 牌 ( 按 “5 7 2 
大 小 ) 分 成 13 堆 ， 按 顺序 从 13 堆 排 中 抽取 同 种 花色 的 扑克 牌 ， 最 后 将 13 v8 v8 。4 
堆 排 ( 按 花色 ) 变 为 4 堆 。 分 牌 的 过 程 是 稳定 的 ， 因 此 花色 中 的 牌 也 是 有 ?Kk $8 6 
序 的 ， 所 以 按照 花色 将 这 4 堆 牌 合并 即 可 得 到 一 副 已 排序 的 扑克 牌 ,请 见 4 $9 +7 
图 5.1.7。 和。 

在 许多 字符 申 排 序 的 应 用 中 甚至 对 于 某 些 州 的 车 牌号 ) ， 键 的 长 度 “5 #10 ?3 
可 能 互 不 相同 。 改 进 后 的 低位 优先 的 字符 趾 排序 是 可 以 适应 这 些 情况 的 , 但 +3 “10 “9 
我 们 将 这 个 任务 留 作 练习 ,因为 下 面 将 学 习 两 种 专门 处 理 变 长 键 排序 的 算法 。 “8 v10 A 

从 理论 上 说 ， 低 位 优先 的 字符 串 排序 的 意义 重大 ， 因 为 它 是 一 种 适用 +3 *] 43 
于 一 般 应 用 的 线性 时 间 排序 算法 。 无 论 Y\ 有 多 大 ， 它 都 只 遍历 不 次 数据 。 0 $3 *4 
具体 描述 如 下 。 “0 +0 +6 


命题 B( 续 ) 。 对 于 基于 个 字符 的 字母 表 的 和 W 个 以 长 为 所 的 字符 囊 SK YR ?i0 
为 键 的 元 素 ， 低 位 优先 的 字符 囊 排序 需要 访问 -THN + 3JR 次 数组 ， 使 人 


用 的 额外 空间 与 N+RR 成 正比 。 48 vk +K 
证 明 。 该 方法 等 价 于 进行 万 轮 键 索 引 计 数 法 ， 但 是 aux[] 只 会 被 初始 。 图 5.17 用 本位 人 条 
化 一 次 。 根 据 前 面 的 代码 和 命题 A 即 可 得 到 算法 访问 数组 和 使 用 空间 排序 算法 
的 总 数 。 将 一 副 扑 
克 牌 排序 


对 于 典型 的 应 用 ，R 远 小 于 N， 因 此 命题 B 说 明 算法 的 总 运行 时 间 与 WN 成 正比 。N 个 长 为 
所 的 字符 串 的 输入 总 共 含 有 WN 个 字符 ， 因 此 低位 优先 的 字符 串 排序 的 运行 时 间 与 输入 的 规模 成 
正比 。 
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5.1.3 ”高 位 优先 的 字符 串 排序 

要 实现 一 个 通用 的 字符 串 排序 算法 ( 字符 串 的 长 度 不 一 定 相同 ) ， 我 们 应 该 考虑 从 左 向 右 遍 历 
所 有 字符 。 我 们 知道 ， 以 a 开头 的 字符 串 应 该 排 在 以 b 开头 的 字符 串 前 面 ， 等 等 。 实 现 这 种 思想 的 
4] sk 。A ”一 个 很 自然 方法 就 是 一 种 递归 算法 ,被 称 为 高 位 优先 ( MSD ) 的 字符 串 排序 ， 
bd 请 见 图 5.1.8。 首 先 用 键 索引 计数 法 将 所 有 字符 串 按照 首 字母 排序 ,然后 ( 弟 
vA 45 44 归 地 ) 再 将 每 个 首 字母 所 对 应 的 子 数组 排序 ( 忽略 首 字母 ， 因 为 每 一 类 中 
vy] aA 46 的 所 有 字符 串 的 首 字母 都 是 相同 的 ) 。 和 快速 排序 一 样 ， 高 位 优先 的 字符 
4 串 排序 会 将 数组 切 分 为 能 够 独立 排序 的 子 数 组 来 完成 排序 任务 ， 但 它 的 切 
4] 46 49 分 会 为 每 个 首 字母 得 到 一 个 子 数组 ， 而 不 是 像 快速 排序 中 那样 产生 固定 的 
9 8 6] 两 个 或 三 个 切 分 ， 请 见 图 5.1.9。 
"9 410 4Q 5.1.3.1 对 字符 串 末尾 的 约定 
49 v6 vA 在 高 位 优先 的 字符 串 排序 算法 中 , 要 特别 注意 到 达 字符 串 末 尾 的 情况 。 
04 vw] v3 在 排序 中 , 合理 的 做 法 是 将 所 有 字符 都 已 被 检查 过 的 字符 串 所 在 的 子 数组 排 
人 全。 人才 在 所 有 子 数组 的 前 面 , 这样 就 不 需要 递归 地 将 该 子 数 组 排序 , 请 见 图 5.1.10。 
v3 v7 v6 为 了 简化 这 两 步 计算 ,我 们 使 用 了 一 个 接受 两 个 参数 的 私有 方法 toChar() 
#10 v8 v8 来 将 字符 串 中 字符 索引 转化 为 数组 索引 ， 当 指定 的 位 置 超过 了 字符 串 的 末 
pal- 尾 时 该 方法 返回 -1。 然 后 将 所 有 返回 值 加 1， 得 到 一 个 非 负 的 int 值 并 用 
#4 v2 v] 它 作为 count[] 的 索引 。 这 种 转换 意味 着 字符 串 中 的 每 个 字符 都 可 能 产生 





410 v5 vkK i R+1 中 不 同 的 值 : 0 表示 字 
A 以 首 字 母 排序 来 将 递归 地 排序 子 数 sa 
c 数组 切 分 为 子 数组 组 (忽略 首 字 母 ) 。 符 囊 的 结尾 ，! 表示 字母 表 


的 第 一 个 字符 ，2 表示 字母 
二 ee 表 的 第 二 个 字符 ， 等 等 。 因 
: : 为 键 索引 计数 法 本 来 就 需要 
-个 额外 的 位 置 ， 所 以 使 用 
代码 int count[] = new 
int[R+2] ; 创建 记录 统计 频 [708 
率 的 数组 ( 将 所 有 值 设 为 0)。 |7io 
注意 ， 某 些 编程 语言 ， 特 别 
是 C 和 C++， 已 经 约定 了 字 
符 串 结束 的 表示 方法 ， 因 此 





vo 
9 
1 
1 
1 

















v2 #9 47 对 于 这 类 语言 本 节 的 代码 需 

2 44 +8 要 进行 相应 的 调整 。 

5 +*2 +9 

wR +7 +10 有 了 这 些 预 备 知识 ， 就 

Ye 2 2 会 知道 算法 5.2 实现 高 位 优 

48 #8 «kK 先 的 字符 串 排序 算法 所 需 的 

图 5.1.8 用 高 位 优先 新 代码 其 实 并 不 多 。 增 加 了 
的 字符 串 排 : : 一 个 条 件 语句 以 在 子 数组 较 
序 算法 将 一 小 时 切换 插入 排序 ， ( 这 里 


副 扑克 牌 排 
序 图 5.1.9 高 位 优先 的 字符 串 排序 的 示意 图 使 用 的 是 一 个 特殊 版 本 的 插 
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入 排序 ， 我 们 会 在 稍 后 考察 。 ) 还 添加 了 一 个 键 索引 计数 法 的 循 输入 


环 来 完成 递归 调用 。 从 表 5.1.1 可 知 ，count[] 数组 中 的 值 (在 人 
统计 频率 、 转 换 为 索引 并 将 数据 分 类 之 后 ) 正 是 将 每 个 字符 所 对 ”seashe11s 
应 的 子 数 组 ( 递归 地 ) 排序 时 所 需要 的 值 。 by 

the 
5.1.3.2 ”指定 的 字母 表 seashore 


高 位 优先 的 字符 串 排序 的 成 本 与 字母 表 中 的 字符 数量 有 很 大 。 shel1s 
关系 。 我 们 可 以 很 容易 地 令 排 序 算法 修 接受 一 个 Alphabet 对 象 。 she 条 长 
作为 参数 ， 以 改进 基于 较 小 的 字母 表 的 字符 串 排序 程序 的 性 能 。 3] 


完成 这 一 点 需要 进行 如 下 改动 : Sri 
口 在 构造 函数 中 用 一 个 alpha 对 象 保存 字母 表 ; seashel1s 


口 在 构造 函数 中 将 R 设 为 alpha.RGO; 


seashells 
seashells 
seashore 
sells 
sells 

she 

she 
shells 
surely 
the 

the 


口 在 charAtO 方法 中 将 s.charAtCd) 替换 为 alpha， 四 S110 并 卫 舍 用 训 们 信守 


toIndex(s.charAt(d))。 型 情况 


表 5.1.1 高 位 优先 的 字符 串 排序 中 count[] 数组 的 意义 























第 d 个 字符 排序 的 ccunt[r] 的 值 
完成 阶段 r=0 rel |r 在 2 与 R-1 之 间 [ r=R | r=R+1 
人 0 (未 使 用 ) | 长度 为 d 的 字符 | 第 d 不 字符 的 索引 值 是 r-2 的 字符 帅 
串 数 量 的 数量 
将 频率 转化 为 索引 Ke 子 数 组 Ee ed r-1 的 字符 串 的 子 数组 | 未 使 用 
第 d 个 字符 的 索引 值 为 r 的 字符 串 的 子 数组 的 起 始 索 引 未 便 用 
数据 分 类 1+ 长 度 为 d 的 字符 串 的 子 数 | 1+ 第 d 个 字符 串 的 索引 值 是 r-1 的 字符 串 的 子 | 未 使 用 











组 的 结束 索引 数组 的 结束 索引 






在 本 节 的 示例 中 ,字符 串 都 是 由 小 写字 母 组 成 的 。 扩 展 低位 优先 的 字符 串 排序 算法 以 支持 这 种 


特性 也 很 简单 ， 但 带 来 的 性 能 提升 一 般 比 高 位 优先 的 字符 串 排序 小 得 多 。 
算法 5.2 高 位 优先 的 字符 串 排序 





public class MSD 
{ 


private static int R = 256; // 基数 
private static final int M = 15;  // 小 数组 的 切 接 网 值 
private static String[] auxi // 数据 分 类 的 辅助 数组 


private static int charAt(String s, int d) 
{ if (d < s.length()) return s.charAt(d); else return -1; } 


public static void sort(String[] a) 
{ 

int N = a.length; 

aux = new String[N]; 

sort(a, 0, N-1, 0); 
} 


private static void sort(String[] a, int lo, int hi, int d) 
{ // 以 第 d 个 字符 为 键 将 a[10] 至 a[h 订 排序 

if (hi <= lo+ MW 

{ Insertion.sort(a, lo, hi, d); return; } 
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int[] count = new int[R+2]; // 计算 频率 

for (int i = loi i <= hi; i++) 
Count[charAt(a[i], d) + 2]++; 

for (int r = 0; r < R+l; r++) // 将 频率 转换 为 索引 
Count[r+1] += count[r]; 

for (int i = 10; i <= hi; i++) // 数据 分 类 
aux[count[charAtCa[i]，d) + 1]++] = ari]; 

for (int 1 = 1oi 1 <= hi; i++) // 回 写 
a[i] = aux[i - 1o]; 


// 第 归 的 以 每 个 字符 为 键 进行 排序 
for (int r= 0; r <R; r++) 
sort(a, lo + count[r], lo + count[r+1] - 1, d+1); 


} 


在 将 一 个 字符 串 数组 a[] 排序 时 ， 首 先 根据 它们 的 首 字母 用 键 索 引 计数 法 进行 排序 ,然后 ( 递归 地 ) 
根据 子 数组 中 的 字符 串 的 首 字母 将 子 数组 排序 。 





算法 5.2 中 的 代码 的 简洁 令 人 刮目相看 ， 它 隐藏 了 一 些 非常 复杂 的 计算 。 花 些 时 间 深 入 研究 图 
5.1.11 所 示 的 算法 顶层 调用 轨迹 和 图 5.1.12 中 递归 调用 的 轨迹 以 确保 你 理解 了 这 个 算法 的 精妙 之 处 ， 
这 些 时 间 不 会 白花 。 在 这 段 轨 迹 中 ， 小 数组 的 插入 排序 切换 阔 值 (M) 为 0o， 因 此 你 可 以 看 到 完整 
的 排序 过 程 。 在 这 个 例子 中 ， 字 符 串 来 自 于 A1phabet.LOWERCASE， 其 中 R=26。 一 般 的 应 用 使 用 
的 大 都 是 R=256 的 Alphabet .EXTENDED_ASCII， 或 是 R=65 536 的 Alphabet .UNICODE。 对 于 较 大 
的 字母 表 ， 高 位 优先 的 排序 算法 虽然 简单 但 可 能 会 很 危险 一 一 如 果 使 用 不 当 ， 它 可 能 会 消耗 令 人 无 
法 承受 的 时 间 和 空间 。 在 仔细 研究 它 的 性 能 特点 之 前 ,我 们 要 先 讨论 三 个 在 任何 应 用 中 都 必须 解决 
的 重要 的 问题 ( 这 些 问题 曾 在 第 2 章 中 讨论 过 ) 。 


使 用 键 索引 计数 法 对 首 字母 排序 遂 归 地 将 子 数 组 指 序 

记录 频率 换 为 索引 打 娄 可 信 。。 数 据 分 类 结束 后 的 案 引 
s a 一 0 sort(a, 0, Ea 党 喜 

a a a ret 1 1 DD: 
s bE 1 ib 让 
S 3 5 es 
b s 加 
t s eashells 
s s shens 
s s ms 
t s ells 
5 s 她 
s 5 [3 
s s ers 
a 5 bore 
s t 了 res 2, 1, D; surely 

4 4 
s a t 

四 a\ 


ert, DD, 3, 3; 
i 

5 的 子 数 组 的 开始 索引 天 四 

的 了 数组 的 结束 索引 1 


图 5.1.11 高 位 优先 的 字符 串 排序 : sortCa，0，14，0) 的 顶层 轨迹 
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输入 d 
she a | 
sells b 1 
seashells S$ i a 
by s e a s h e T T 
the s e a s h e 1 1 
sea s e 1 
shore s ee 1 
the s h 
shells s h 
she s h 
sells s h 
are s u 
surely th hi 
seashells 七 
对 于 相同 的 键 ， 所 有 字符 串 的 结尾 
的 字符 都 会 被 检查 大 于 任何 字符 输出 
are 
by 
sea 
5 seashells 
s seashells 
1 5 sells 
1 s sells 
© she 
ee she 
e 1 shells 
o shore 
surely 
R the 
h e the 








图 5.1.12 高 位 优先 的 字符 串 排序 的 递归 调用 轨迹 (小 数组 不 会 切换 到 插入 排序 ， 大 小 为 0 和 ! 的 子 数 
组 已 被 省 略 ) 

5.1.3.3 ”小 型 子 数 组 

高 位 优先 的 字符 串 排序 的 基本 思想 是 很 有 效 的 : 在 一 般 的 应 用 中 ， 只 需 检查 若 干 个 字符 就 能 完 
成 所 有 字符 串 的 排序 。 换 句 话说 ， 这 种 方法 能 够 快速 地 将 需要 排序 的 数组 切 分 为 较 小 的 数组 。 但 这 
种 切 分 也 是 一 把 双 刃 剑 : 我 们 肯定 会 需要 处 理 大 量 微型 数组 ， 因 此 必须 快速 处 理 它们 。 小 型 子 数组 
对 于 高 位 优先 的 字符 囊 排序 的 性 能 至 关 重 要 。 我 们 在 其 他 递归 排序 算法 中 也 过 到 过 这 种 情况 ( 快速 
排序 和 归并 排序 ) ， 但 小 数组 对 于 高 位 优先 的 字符 串 排序 的 影响 尤其 强烈 。 例 如 ， 假 设 你 需要 将 数 
百 万 个 不 同 的 ASCII 字符 串 ( R=256 ) 排序 且 不 会 对 小 数组 进行 特殊 处 理 。 每 个 字符 串 最 终 都 会 产 
生 一 个 只 含有 它 自己 的 子 数组 ， 因 此 你 需要 将 数 百 万 个 大 小 为 1 的 子 数组 排序 。 但 每 次 排序 都 需要 
将 count[] 的 258 个 元 素 初始 化 为 0 并 将 它们 都 转化 为 索引 。 这 种 代价 比 排序 的 其 他 部 分 要 高 很 多 。 
在 使 用 Unicode 时 ( R=655 36 ) ， 排 序 过 程 可 能 会 减 慢 上 千 倍 。 事 实 上 ， 正 因为 如 此 ,许多 使 用 排 
序 但 考虑 不 周 的 程序 在 从 ASCII 切换 到 Unicode 后 运行 时 间 从 几 分 钟 暴涨 到 几 个 小 时 。 然 而 ， 将 小 
数组 切换 到 插入 排序 对 于 高 位 优先 的 字符 串 排序 算法 是 必须 的 。 为 了 避免 重复 检查 已 知 相同 的 字符 
所 带 来 的 成 本 ,我们 使 用 了 后 面 框 注 “ 对 前 d 个 字符 均 相 同 的 字符 串 执行 插入 排序 ”中 给 出 的 一 个 
版 本 的 插入 排序 。 它 接受 一 个 额外 的 参数 d 并 假设 所 有 需要 排序 的 字符 串 的 前 d 个 字符 都 是 相同 的 。 
这 段 代码 的 效率 取决 于 substring() 方法 所 需 的 时 间 是 否 为 常数 。 和 快速 排序 以 及 归并 排序 一 样 ， 


一 个 较 小 的 转换 阔 值 就 能 将 性 能 提高 很 多 ， 但 对 于 高 
位 优先 的 字符 串 排序 算法 它 节 约 的 时 间 是 非常 可 观 的 。 
图 5.1.13 显示 了 一 个 典型 应 用 中 的 实验 结果 。 在 长 度 
小 于 等 于 10 时 将 子 数组 切换 到 插入 排序 能 够 将 运行 时 
间 降 低 为 原来 的 十 分 之 一 。 
5.1.3.4 ”等 值 键 

高 位 优先 的 字符 串 排序 中 的 第 二 个 陷阱 是 ， 对 于 
含有 大 量 等 值 键 的 子 数组 的 排序 会 较 慢 。 如 果 相同 的 
子 字符 串 出 现 得 过 多 , 切换 排序 方法 条 件 将 不 会 出 现 
那么 递归 方法 就 会 检查 所 有 相同 键 中 的 每 一 个 字符 。 
另外 ， 键 索引 计数 法 无 法 有 效 判断 字符 串 中 的 字符 是 
否 全 部 相同 : 它 不 仅 需 要 检查 每 个 字符 和 移动 每 个 字 
符 串 ， 还 需要 初始 化 所 有 的 频率 统计 并 将 它们 转换 为 
索引 等 。 因 此 ， 高 位 优先 的 字符 串 排序 的 最 坏 情况 就 
是 所 有 的 键 均 相同 。 大 量 含有 相同 前 级 的 键 也 会 产生 
同样 的 问题 ， 这 在 一 般 的 应 用 场景 中 是 很 常见 的 。 
5.1.3.5 ”额外 空间 

为 了 进行 切 分 ， 高 位 优先 的 算法 使 用 了 两 个 辅助 
数组 : 一 个 用 来 将 数据 分 类 的 临时 数组 (aux[] ) 和 
一 个 用 来 保存 将 会 被 转化 为 切 分 索引 的 统计 频率 的 数 
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100% 


N=100 000 
入 个 随机 的 加 利 
福 尼 亚 州 车 牌号 
每 个 点 进行 100 次 实验 


四 
1 


运行 时 间 是 无 切换 版 本 运行 时 间 的 百分比 
四 
肖 
1 





人 
0 10 ”切换 阅 值 50 


图 5.1.13 高 位 优先 的 字符 串 排序 算法 中 
加 公关 机 的 扩 这 广陵 的 和 


组 (count[] ) 。aux[] 的 大 小 为 NN 且 可 以 在 递归 方法 sort() 外 创建 。 如 果 牺牲 稳定 性 ， 则 可 以 去 
掉 aux[] 数组 ( 请 见 练习 5.1.17 ) ， 但 它 并 不 是 高 位 优先 的 字符 串 排序 算法 在 实际 应 用 中 所 关注 的 
内 容 。 相 反 ，count[] 所 和 需 的 空间 才 是 主要 问题 ( 因为 它 不 能 在 递归 方法 sort() 之 外 创建 ) ， 如 下 


文 的 命题 D 所 述 。 


public static void sort(String[] a, int lo, int hi, int d) 


{ // 对 前 d 个 字符 排序 ， 从 a[1o] 到 a[hi] 


for (int 1 = lo; 1 <= hi; i++) 


for Cint j = ii j > lo && less(a[lj], a[lj-1], d); j--) 


exch(a, j, j-D; 
} 


private static boolean less(String v, String w, int d) 
{ return v.substring(d).compareTo(w.substring(d)) < 0; } 


对 前 d 个 字符 均 相同 的 字符 串 执行 插入 排序 


5.1.3.6 ”随机 字符 串 模型 


为 了 研究 高 位 优先 的 字符 串 排序 算法 的 性 能 ， 我 们 使 用 了 一 个 随机 字符 囊 模 型 ， 其 中 每 个 字符 串 
都 (独立 的 ) 由 随机 字符 组 成 ， 长 度 没有 限制 。 这 实际 上 排除 了 出 现 较 长 的 等 值 键 的 情况 ， 因 为 它们 
出 现 的 几率 非常 小 。 高 位 优先 的 字符 串 排序 算法 在 这 个 模型 中 的 表现 和 随机 定 长 键 模型 中 的 表现 类 似 ， 
也 和 它 在 一 般 的 真实 数据 中 的 性 能 类 似 。 我 们 将 会 看 到 ， 在 这 三 种 情况 中 ， 高 位 优先 的 字符 串 排序 算 


法 通常 都 只 需要 检查 每 个 键 开头 的 若干 个 字符 即 可 。 
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5.1.3.7 性 能 
高 位 优先 的 字符 串 排序 算法 的 性 能 取决 于 数据 。 对 非 随机 字符 囊 


; 对 随机 字符 串 。 “ 且 有 重复 ( 接 。 最 坏 情况 
于 基于 比较 的 方法 ,我 们 主要 关注 的 是 键 的 顺序 ; 对 于 ( 亚 线 性 时 间 ) 近 线 性 时 间 ) (线性 时 间 ) 


高 位 优先 的 字符 串 排序 算法 ， 键 的 顺序 并 不 重要 ,我们 。 ”JE DNB32 
关注 的 是 键 所 对 应 的 值 ， 请 见 图 5.1.14。 1H b 1DNB377 
口 对 于 随机 输入 ， 高 位 优先 的 字符 囊 排序 算法 只 。。 如 Si 
会 检查 足以 区 别 字符 串 所 需 的 字符 。 相 对 于 输 。。 2 seashe11s 1DNB377 
入 数据 中 的 字符 总 数 ， 算 法 的 运行 时 间 是 亚 线 。 ”2X sells 1DNB377 
性 的 〔 它 只 会 检查 输入 字符 中 的 一 小 部 分 ) 。 3 Sy dd 
口 对 于 非 随机 的 输入 ， 高 位 优先 的 字符 串 排序 算 3I she 1DNB377 
法 可 能 仍然 是 亚 线性 的 ， 但 需要 检查 的 字符 可 3K shel 1DNB377 
能 比 随机 情况 下 更 多 。 特 别 是 对 于 相等 的 键 ， 。” 沪 sh oN 
它 需 要 检查 它们 的 所 有 字符 ， 所 以 当 存在 大 量 4Q the 1DNB377 
等 值 键 时 它 所 需 的 运行 时 间 是 接近 线性 的 。 4 the 1DNB377 
口 在 最 坏 情况 下 ， 高 位 优先 的 字符 串 排序 算法 会 


5.1. 5 的 的 
检查 所 有 键 中 的 所 有 字符 ， 所 以 相对 于 数据 中 。 图 5114 喜 们 优先 的 训 符 排序 算法 的 


的 所 有 字符 它 所 需 的 运行 时 间 是 线性 的 ( 和 低 
位 优先 的 字符 串 排 序 算法 相同 ) 。 最 坏 情况 下 
的 输入 中 所 有 的 字符 串 均 相同 。 
某 些 应 用 程序 所 处 理 的 键 和 随机 字符 串 模型 能 很 好 匹配 ， 而 有 些 则 含有 很 多 重复 的 键 或 是 较 长 
的 公共 前 红 ， 这 种 情况 下 排序 所 需 的 时 间 和 最 坏 情况 接近 。 比 如 ， 在 我 们 的 车 牌号 处 理应 用 程序 中 
这 两 种 极端 情况 都 可 能 出 现 ， 如 果 工 程 师 选 取 一 条 繁忙 的 州 际 公路 一 小 时 的 数据 ， 那 么 数据 中 的 重 
复 项 会 很 少 ， 符 合 随机 模型 ， 如 果 取 的 是 一 条 乡间 小 道 一 个 星期 的 数据 ， 那 么 数据 中 肯定 会 有 大 量 
的 重复 项 ， 算 法 的 性 能 将 会 和 最 坏 情况 类 似 。 
作为 提示 以 及 对 为 何 该 证 明 已 经 超出 了 本 书 的 范围 的 说 明 ， 我 在 这 里 提醒 大 家 注意 ， 命 题 的 结 
论 和 键 的 长 度 是 无 关 的 。 事 实 上 ， 随 机 字符 串 模型 所 允许 的 键 长 接近 无 限 。 两 个 键 之 间 有 任意 多 的 
字符 相 吻 合 ， 这 个 可 能 性 不 是 零 ,但 这 个 可 能 性 非常 小 ， 在 估计 性 能 时 可 以 将 其 忽略 。 
由 以 上 讨论 可 以 知道 ， 检 查 的 字符 数量 并 不 是 高 位 优先 的 字符 串 排序 算法 性 能 的 全 部 。 我 们 还 
需要 考虑 统计 字符 的 出 现 频率 以 及 将 频率 转化 为 索引 所 需要 的 时 间 和 空间 。 


命题 C。 要 将 基于 大 小 为 尽 的 字母 表 的 人 个 字符 囊 排 序 ， 高 位 优先 的 字符 冲 排 序 算法 平均 需要 
检查 NMlogaN 个 字符 。 


简略 证 明 。 我 们 希望 子 数组 的 大 小 几乎 都 是 相同 的 ， 因 此 递 推 关系 Cw=RCwaHN 可 以 近似 地 描 
述 算法 的 性 能 并 得 到 命题 所 述 的 结果 。 它 也 是 第 2 章 中 快速 排序 性 能 证 明 的 一 般 化 证 明 。 另 一 
方面 ， 这 种 描述 并 不 完全 准确 ， 因 为 WR 并 不 一 定 能 够 得 到 人 整数， 子 数组 的 大 小 相同 也 仅 是 平 
均 而 言 (而 且 在 现实 中 键 的 长 度 是 有 限 的 ) 。 这 些 因素 对 高 位 优先 的 字符 串 排序 算法 的 影响 比 
对 标准 快速 排序 算法 的 影响 小 ， 因 此 算法 运行 时 间 中 的 最 大 项 就 是 这 个 递 推 关系 的 答案 。 这 个 
问题 的 详细 证 明 是 算法 分 析 中 的 经 典 例子 ， 最 早 由 Knuth 完成 于 20 世纪 70 年 代 早期 。 
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命题 D。 要 将 基于 大 小 为 RR 的 字母 表 的 入 个 字符 串 排序 ， 高 位 优先 的 字符 囊 排序 算法 访问 数 
组 的 次 数 在 8N+ 3R 到 7wN+3wR 之 间 ， 其 中 w 是 字符 串 的 平均 长 度 。 


证 明 。 由 代码 、 命 题 A 和 命题 B 可 得 ,在 最 好 情况 下 高 位 优先 的 排序 算法 只 需 遍 历数 据 一 轮 ; 
而 在 最 坏 情况 下 ， 它 和 低位 优先 的 字符 串 排 序 算法 的 性 能 类 仪 。 


当 入 较 小 时 ，R 是 主要 因子 。 尽 管 对 总 成 本 的 精确 分 析 是 困难 而 复杂 的 ， 但 你 只 需 考虑 无 重复 
键 的 情况 下 所 有 较 小 的 子 数组 就 可 以 估计 出 该 成 本 的 实际 效果 。 在 不 为 较 小 的 子 数组 切换 排序 方法 
的 情况 下 ， 每 个 键 都 会 产生 一 个 单独 的 子 数组 ， 因 此 仅 为 处 理 这 些 子 数组 就 需要 访问 NR 次 数组 。 
如 果 为 小 于 MM 的 数组 切换 排序 方法 ， 将 会 有 N/M 个 大 小 为 M 的 子 数组 ， 因 此 等 于 是 在 用 NM/4 次 
比较 换取 NR/M 次 数组 访问 ， 这 说 明 应 该 选择 与 R 的 平方 根 成 正比 的 M。 


命题 D 〈 续 ) 。 要 将 基于 大 小 为 及 的 字母 表 的 N 个 字符 串 排序 ， 最 坏 情况 下 高 位 优先 的 字符 惠 
排序 算法 所 需 的 空间 与 尽 乘 以 最 长 的 字符 事 的 长 度 之 积 成 正比 (再 加 上 N) 。 


证 明 。count[] 数组 必须 在 sort() 中 创建 ， 因 此 空间 需求 的 总 量 与 尺 和 递归 的 深度 之 积 成 
正比 (再 加 上 辅助 数组 的 大 小 NN) 。 准 确 地 说 ， 递 归 的 深度 即 最 长 字符 事 的 长 度 ， 也 就 是 两 
个 或 多 个 被 排序 的 字符 串 的 公共 前 组 的 长 度 。 


正如 刚才 所 讨论 的 ， 相 等 的 键 使 得 递归 的 深度 和 键 的 长 度 成 正比 。 由 命题 D 马上 可 以 推论 
出 ， 在 用 高 位 优先 的 字符 串 排序 算法 将 基于 大 型 字母 表 的 长 字符 串 排序 时 ， 它 很 有 可 能 消耗 过 多 的 
时 间或 者 空间 ,特别 是 在 已 知 可 能 出 现 较 长 的 等 值 键 的 情况 下 。 例 如 ， 如 果 使 用 的 是 Alphabet . 
UNICODE 且 某 些 字符 串 中 公共 前 级 的 长 度 超过 1000 个 字符 ， 那 么 MSD.sort() 将 需要 为 超过 6500 
万 个 计数 器 元 素 分 配 空间 ! 

在 将 长 字符 串 排序 时 ， 令 高 位 优先 的 字符 串 排序 算法 发 挥 出 最 大 效率 的 主要 挑战 在 于 处 理 数据 中 
的 非 随机 因素 。 一 般 来 说 ， 一 些 键 可 能 存在 较 长 的 公共 部 分 ， 或 者 部 分 键 的 取 值 范围 有 限 。 比 如 ， 在 
处 理学 生 信息 的 应 用 程序 中 ,数据 的 键 可 能 是 毕业 年 份 (4 个 字 节 , 但 只 有 4 种 可 能 的 值 ) , 州 名 (可 
能 需要 10 个 字 节 ， 但 只 有 50 种 可 能 的 值 ) ， 性 别 (1 个 字 节 ，2 种 值 ) 以 及 学 生 的 姓名 ( 和 随机 字 
符 串 最 接近 ， 但 有 可 能 很 长 ， 字 母 出 现 频率 的 分 布 并 不 均匀 且 当 该 栏 长 度 固定 时 字符 串 的 末尾 会 被 添 
加 许多 空格 ) 。 这 些 限制 使 得 高 位 优先 的 字符 串 排序 算法 会 产生 许多 空子 数组 。 下 面 我 们 将 学 习 一 种 
能 够 漂亮 地 解决 这 个 问题 的 算法 。 


5.1.4 三 向 字符 串 快速 排序 

我 们 也 可 以 根据 高 位 优先 的 字符 串 排序 算法 改进 快速 排序 ， 根 据 键 的 首 字母 进行 三 向 切 分 ， 仅 
在 中 间 子 数组 中 的 下 一 个 字符 ( 因为 键 的 首 字母 都 与 切 分 字符 相等 ) 继续 递归 排序 。 这 个 算法 的 实 
现 并 不 困难 ， 请 见 算法 5.3: 我 们 只 是 为 算法 2.5 中 的 递归 方法 添加 了 一 个 参数 来 保存 当前 的 切 分 字 
母 并 令 三 向 切 分 的 代码 使 用 该 字符 ， 然 后 递归 适当 修正 方法 ， 请 见 图 5.1.15。 

尽管 排序 的 方式 有 所 不 同 ， 但 三 向 字符 串 快速 排序 根据 的 仍然 是 键 的 首 字母 并 使 用 递归 方法 将 
其 余部 分 的 键 排序 。 对 于 字符 串 的 排序 ， 这 个 方法 比 普通 的 快速 排序 和 高 位 优先 的 字符 串 排序 更 友 
好 。 实 际 上 ， 它 就 是 这 两 种 算法 的 结合 。 
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三 向 字符 串 快速 排序 只 将 数组 切 分 为 三 部 分 ， 因此 当 相 应 的 高 位 优先 的 字符 串 排序 产生 的 非 空 
切 分 较 多 时 ， 它 需要 移动 的 数据 量 就 会 变 大 ， 因 为 它 需 要 进行 一 系列 的 三 向 切 分 才能 取得 多 向 切 分 
的 效果 。 但 是 ， 高 位 优先 的 字符 串 排序 可 能 会 创建 大 量 ( 空 ) 子 数组 ， 而 三 向 字符 串 快速 排序 的 切 
分 总 是 只 有 三 个 。 因 此 三 向 字符 串 快速 排序 能 够 很 好 处 理 等 值 键 、 有 较 长 公共 前 级 的 键 、 取 值 范围 
较 小 的 键 和 小 数组 一 一 所 有 高 位 优先 的 字符 串 排序 算法 不 善 长 的 各 种 情况 ， 请 见 图 5.1.16。 特 别 重 
要 的 一 点 是 ， 这 种 切 分 方法 能 够 适应 键 的 不 同 部 分 的 不 同 结构 。 和 快速 排序 一 样 ， 三 向 字符 串 快速 
排序 也 不 需要 额外 的 空间 ( 递归 所 需 的 隐 式 栈 除 外 ), 这 是 它 相 比 高 位 优先 的 字符 串 排序 的 一 大 优点 ， 
后 者 在 统计 频率 和 使 用 辅助 数组 时 都 需要 空间 。 


使 用 首 字 人 递归 地 将 子 数组 排 
序 (在 “等 于 ” 子 












































数组 中 忽略 首 字母 ) 

输入 排序 结果 
edu.princeton.cs com.adobe 

Ny com.apple com.apple 

’ edu.princeton.cs com.cnn 

站 com .cnn com.google 

Vy com.google 和 区 edu.princeton.cs 
edu.uva.cs ~ edu.princeton.cs 
edu.princeton.cs edu.princeton.cs 
edu.princeton.cs.www edu.princeton.cs.www 
edu.uva.cs edu.princeton.ee 
edu.uva.cs | 一 重复 键 egu.uva.cs 
edu.uva.cs edu.uva.cs 
com.adobe edu.uva.cs 
edu.princeton.ee edu.uva.cs 

图 5.1.15 三 向 字符 串 快速 排序 的 示意 图 图 5.1.16 ” 适 于 使 用 三 向 字符 串 快速 排序 的 典型 情况 


图 5.1.17 显示 了 Quick3string 在 处 理 样 例 数据 时 产生 的 所 有 递归 调用 。 每 个 子 数组 都 正好 只 
用 了 三 个 递归 调用 就 完成 了 排序 ， 只 是 省 略 了 中 间 子 数组 中 到 达 ( 相等 的 ) 字符 串 的 结尾 时 的 递归 
调用 。 

和 以 前 一 样 ， 在 实际 应 用 中 下 列 对 算法 5.3 的 标准 改进 都 是 很 值得 考虑 的 。 
5.1.4.1 小 型 子 数组 

在 所 有 的 递归 算法 中 ， 我们 都 可 以 通过 对 小 型 子 数组 进行 特殊 处 理 来 提高 效率 。 这 里 使 用 的 是 
5.1.2.3 框 注 中 的 “对 前 d 个 字符 均 相同 的 字符 串 执行 插入 排序 ”中 的 插入 排序 ， 它 能 够 跳 过 已 知 相 
等 的 字符 。 这 项 修改 带 来 的 改进 会 很 明显 ， 尽 管 它 在 三 向 字符 串 排序 的 重要 性 远 不 如 它 在 高 位 优先 
的 字符 串 排序 的 重要 性 高 。 
5.1.4.2 ”有 限 的 字母 表 

为 了 处 理 特殊 的 字母 表 ， 可 以 为 所 有 方法 添加 一 个 Alphabet 类 型 的 参数 alpha 并 在 charAt() 
方法 中 将 s.charAt(d) 替换 为 alpha.toIndex(s.charAt(d))。 在 这 里 ,这么 做 并 不 能 得 到 什么 收 
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益 ， 相 反 添 加 这 段 代码 可 能 会 大 幅 降 低 算法 的 运行 速度 ， 因 为 它 在 内 循环 之 中 。 





还 需要 两 轮 切 分 才 
a are 灰色 方 框 表示 空子 数组 能 到 达 字 符 串 的 结尾 
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字符 串 快速 排序 的 递归 调用 轨迹 (不 在 子 数组 较 小 时 切换 排序 方法 ) 





图 5.1.7 





算法 5.3 三 向 字符 串 快速 排序 


public class Quick3string 





private static int charAt(String s, int d) 

{ if (d < s.length()) return s.charAt(d); else return -1; } 
public static void sort(String[] a) 

{ sort(a, 0, a.length - 1, 0); } 

private static void sort(String[] a, int 1o，int hi, int d) 


if (hi <= 10) return; 
int lt = 10, gt = hi; 
int v = charAt(a[lo], d); 
int i = lo+1; 

while (i <= gt) 

{ 


int t = charAt(a[i], d); 


if (t < v) exch(a, 1t++, i++); 
else if (t > v) exch(a, i, gt--); 
else + 


} 

a[1o. .1t v 
sort(a, 10, 1t-1, d); 
if (v >= 0) sort(a, 1t, gt, d+l); 
Sort(a, gt+1, hi, d); 





} 
在 将 字符 串 数组 ar] 排序 时 ， 根 据 它们 的 首 字母 进行 三 向 切 分 ,然后 ( 递归 地 ) 将 得 到 的 三 个 子 数 


组 排序 : 一 个 含有 所 有 首 字 母 小 于 切 分 字符 的 字符 串 子 数组 ， 一 个 含有 所 有 首 字母 等 于 切 分 字符 的 字符 上 
中 的 子 数组 (排序 时 忽略 它们 的 首 字母 ) ， 一 个 含有 所 有 首 字母 大 于 切 分 字符 的 字符 串 的 子 数组 。 721 
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5.1.4.3 ”随机 化 

和 快速 排序 一 样 ， 最 好 在 排序 之 前 将 数组 打 乱 或 是 将 第 一 个 元 素 和 一 个 随机 位 置 的 元 素 交换 以 
得 到 一 个 随机 的 切 分 元 素 。 这 么 做 主要 是 为 了 预防 数组 已 经 有 序 或 是 接近 有 序 的 最 坏 情况 。 

对 于 字符 串 类 型 的 键 ， 标 准 的 快速 排序 以 及 第 2 章 中 的 其 他 排序 方法 实际 上 都 是 高 位 优先 类 的 
字符 串 排序 算法 , 这 是 因为 String 类 的 compareTo() 方法 是 从 左 到 右 访问 字符 串 中 的 所 有 字符 的 。 
也 就 是 说 ，compareTo() 在 首 字母 不 同时 只 会 访问 首 字母 ， 在 首 字母 相同 且 第 二 个 字母 不 同时 只 会 
访问 它们 的 前 两 个 字母 ， 等 等 。 例 如 ， 如 果 所 有 字符 串 的 首 字母 均 不 相同 ， 标 准 的 排序 算法 只 会 检 
可 这 些 首 字母 ， 这 就 自动 实现 了 一 些 我 们 希望 对 高 位 优先 的 字符 串 排序 算法 的 改进 。 三 向 字符 串 排 
序 背后 的 核心 思想 是 对 首 字母 相同 的 键 采取 特殊 的 策略 。 实 际 上 你 可 以 把 算法 5.3 看 作对 标准 快速 
排序 的 改进 ， 使 之 能 够 记录 已 知 相同 的 多 个 开头 字母 。 在 较 小 的 子 数组 中 ， 排 序 所 需 的 大 多 数 比较 
都 已 经 完成 ， 其 中 的 字符 串 很 可 能 含有 多 个 相同 的 开头 字母 。 标 准 的 方法 在 每 次 比较 时 仍然 需要 扫 
描 整 个 字符 串 ， 但 三 向 字符 串 快速 排序 则 可 以 避免 这 一 点 。 
5.1.4.4 性 能 

考虑 字符 申 键 都 很 长 的 情况 〈 简单 起 见 ， 长 度 均 相同 ) 且 键 前 面 的 大 半 部 分 首 字母 均 相同 。 在 
这 种 情况 下 ， 标 准 快速 排序 的 性 能 与 字符 串 的 长 度 乘 以 2MnX 成 正比 ， 而 三 向 字符 串 排序 的 运行 时 
间 则 与 Y 乘 以 字符 串 的 长 度 (需要 发 现 所 有 的 相同 开头 字母 ) 再 加 上 2NinN 次 比较 ( 对 剩 下 的 较 短 
部 分 进行 排序 ) 的 和 成 正比 。 也 就 是 说 ， 三 向 字符 串 快速 排序 所 需 比较 的 字符 最 多 比 普通 的 快速 排 
序 少 2InN 个 。 实 际 排序 应 用 中 处 理 的 键 和 这 个 例子 类 似 的 情况 也 并 不 少见 。 


命题 E。 要 将 含有 入 个 随机 字符 囊 的 数组 排序 ,三 向 字符 串 快速 排序 平均 需要 比较 字符 ~ 2NInN 次 。 


证 明 。 我 们 可 以 用 两 种 方式 来 理解 这 个 结论 。 首 先 ， 将 这 个 方法 看 作 在 快速 排序 中 用 首 字母 切 
分 并 (递归 地 ) 调用 相同 的 方法 将 子 数 组 排序 ， 那 么 它 所 需 的 操作 数量 和 普通 的 快速 排序 相同 
就 一 点 也 不 奇怪 了 一 一 但 这 只 是 比较 单个 字符 所 需 的 操作 ， 而 非 比 较 整 个 键 所 需 的 次 数 。 其 次 ， 
可 以 将 这 个 方法 看 作用 快速 排序 代替 了 键 索引 计数 法 ， 根 据 命题 D， 我 们 预计 的 运行 时 间 为 
NiogaN 与 2InN 的 积 , 这 是 因为 快速 排序 需要 2RlnR 步 来 将 尽 个 字符 排序 ， 而 对 于 相同 的 字符 囊 ， 
高 位 优先 的 字符 串 排序 算法 只 需要 尺 步 。 这 里 就 不 给 出 完整 的 证 明了 。 


我 们 曾 在 5.1.3.7 节 强 调 过 ， 随 机 字符 串 模型 是 很 有 用 的 ， 但 要 预测 实际 情况 下 算法 的 性 能 还 需 
要 更 仔细 的 分 析 。 研 究 者 已 经 对 这 个 算法 进行 了 深入 的 研究 并 已 经 证 明 在 非常 一 般 的 假设 下 ， 其 他 
算法 最 多 比 三 向 字符 串 快速 排序 快 常数 级 别 ( 以 比较 的 字符 数量 衡量 ) 。 它 的 应 用 非常 广泛 ， 因 为 
三 向 字符 串 快速 排序 的 性 能 并 不 直接 取决 于 字母 表 的 大 小 。 
5.1.4.5 ”举例 : 网 站 日 志 

作为 三 向 字符 串 快速 排序 礁 立 鸡 群 的 一 个 示例 , 我 们 来 考察 一 个 现代 系统 中 的 典型 数据 处 理 任务 。 
假设 你 架设 了 一 个 网 站 并 希望 分 析 它 产生 的 流量 。 你 可 以 从 系统 管理 员 那里 得 到 网 站 的 所 有 活动 , 每 项 
活动 的 信息 中 都 含有 发 起 者 的 域名 。 例 如 ， 本 书 网 站 上 的 webJog bt 文件 中 包含 的 就 是 该 网 站 一 个 星期 
中 的 所 有 活动 。 为 什么 三 向 字符 串 快速 排序 能 够 有 效 处 理 这 种 文件 呢 ? 因为 排序 结果 中 许多 字符 串 都 有 
很 长 的 公共 前 级 ， 而 这 种 算法 不 会 重复 检查 它们 。 


5.1.5 “字符 串 排序 算法 的 选择 
我 们 很 自然 会 对 这 里 的 字符 串 排序 算法 和 第 2 章 中 的 通用 排序 算法 的 对 比 感 兴趣 。 表 5.1.2 总 
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结 了 本 节 所 讨论 过 的 字符 串 排序 算法 的 重要 特征 ( 快速 排序 、 归 并 排序 和 三 向 快速 排序 的 数据 来 自 


























第 2 章 ， 以 供 比较 ) 。 
表 5.1.2 ”各 种 字符 串 排 序 算法 的 性 能 特点 
在 将 基于 大 小 为 尺 的 字母 表 的 N 个 字 
符 串 排序 的 过 程 中 调用 charAt C 方法 
算 法 是 否 稳定 | 原 地 排序 | 次 数 的 增长 数量 级 《平均 长 度 为 w， 最 | 。 ”优势 领域 
大 长 度 为 W) 
运行 时 间 额外 空间 
i j , 和 小 数组 或 是 已 经 有 序 
字符 的 插入 排序 是 是 | 到 访 之 间 1 人 
通用 排序 算法 ， 特 别 
快速 排序 耕 是 “| Mogiw logN 活用 半空 加 不 是 的 
情 
归并 排序 | 是 吾 | wogw | ww 稳定 的 通用 排序 算法 
= 向 快速 排序 理 是 “| w 到 Nogv 之 间 | iogw 大 量 重复 刍 
低位 优先 的 字符 帅 排 序 | 是 E |vw 加 较量 的 定 长 字符 中 
高 位 优先 的 字符 串 排 庆 | 。 是 否 “| N 到 Nw 之 间 NR 随机 字符 囊 
| 通用 排序 算法 ， 特 别 
三 向 字符 申 快速 排序 否 是 | N 到 Nw 之 间 WtlogN | 适合 用 于 含有 较 长 公 
| 共 前 缕 的 字符 囊 




















和 第 2 章 一 样 ， 根据 具体 的 算法 和 数据 将 这 些 增长 数量 级 乘 以 适当 的 常数 就 可 以 估计 出 程序 所 


需 的 运行 时 间 。 


我 们 已 经 看 到 过 许多 示例 和 练习 中 的 许多 示例 ， 不 同 的 情况 需要 用 不 同 的 算法 和 参数 来 处 理 。 


在 专家 的 指导 下 ( 现在 也 许 就 是 你 )， 在 特定 的 场景 下 算法 的 性 能 也 许 能 够 得 到 大 幅度 提高 。 


图 符 经 


问 


Java 系统 的 排序 使 用 了 这 些 方法 来 处 理 String 对 象 吗 ? 
没有 ， 但 Java 的 标准 实现 中 的 字符 串 比较 非常 快 ， 它 使 得 标准 排序 的 性 能 与 本 节 中 讨论 的 这 些 算法 
不 相 上 下 。 

那么 ， 我 只 需要 使 用 系统 排序 来 处 理 String 类 型 的 键 就 可 以 了 吗 ? 

在 Java 中 可 能 是 这 样 的 。 当 然 如 果 你 要 处 理 的 字符 串 非常 多 或 者 需要 一 个 极 快 的 算法 ， 就 可 能 需要 
用 char 数组 代替 String 对 象 并 使 用 基数 排序 算法 。 

表 5.1.2 中 的 log:N 是 怎么 回 事 ? 

说 明 这 些 算法 中 的 大 多 数 比较 都 是 在 含有 长 度 约 为 logN 的 公共 前 缀 的 字符 串 之 间 进行 的 。 最 近 的 一 
些 研究 通过 详细 的 数学 分 析 也 证 明了 随机 字符 串 也 满足 这 一 性 质 ( 参见 本 书 网 站 ) 。 


图 练习 
5.1.1 实现 一 种 排序 算法 ， 首 先 统计 不 同 键 的 数量 ， 然 后 使 用 -个 符号 表 来 实现 键 索引 计数 法 并 将 数组 


排序 。 (这 种 方法 不 适用 于 不 同 键 的 数量 很 大 的 情况 ) 。 
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5.1.2 


5.1.7 
5.1.8 


5.1.9 
5.1.10 
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给 出 使 用 低位 优先 的 字符 串 排序 算法 处 理 下 面 这 些 键 的 轨迹 : no is th ti fo al go pe to 
co to th ai of th pa, 

给 出 使 用 高 位 优先 的 字符 串 排序 算法 处 理 下 面 这 些 键 的 轨迹 : no is th ti fo al go pe to 
co to th ai of th pa, 

给 出 使 用 三 向 字符 串 快速 排序 算法 处 理 下 面 这 些 键 的 轨迹 : no is th ti fo al go pe to co 
to th ai of th pa。 

给 出 使 用 高 位 优先 的 字符 串 排序 算法 处 理 下 面 这 些 键 的 轨迹 : now is the time for all good 
people to come to the aid of, 

给 出 使 用 三 向 字符 串 快 速 排序 算法 处 理 下 面 这 些 键 的 轨迹 : now is the time for all good 
people to come to the aid of, 

用 一 个 Queue 对 象 的 数组 实现 键 索引 计数 法 。 

对 于 一 个 含有 N 个 键 aaa, aaa, aaaa, … 的 文件 ， 给 出 高 位 优先 的 字符 串 排序 和 三 向 字符 串 快速 排 
序 所 检查 的 字符 数量 。 

实现 能 够 处 理 变 长 字符 串 的 低位 优先 的 字符 串 排序 算法 。 

要 将 N 个 定 长 字符 串 排序 (长度 均 为 所) ， 在 最 坏 情况 下 三 向 字符 串 快速 排序 总 共 需 要 检查 多 
少 个 字符 ? 


国 提高 到 


5.1.11 


5.1.12 


5.1.13 


5.1.14 
5.1.15 


5.1.16 


5.1.17 
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队列 排序 。 按 照 以 下 方法 使 用 队列 实现 高 位 优先 的 字符 串 排序 ， 为 每 个 盒子 ”设置 一 个 队列 。 在 
第 一 次 遍历 所 有 元 素 时 ， 将 每 个 元 素 根据 首 字母 插入 到 适当 的 队列 中 。 然 后 ， 将 每 个 子 列表 排序 
并 合并 所 有 队列 得 到 一 个 完整 的 排序 结果 。 注 意 ， 在 这 种 方法 中 count[] 数组 不 需要 在 递归 方 
法 内 创建 。 

字母 表 。 实 现 5.0.2 节 给 出 的 Alphabet 类 的 API 并 用 它 实现 能 够 处 理 任意 字母 表 的 低位 优先 的 
和 高 位 优先 的 字符 申 排序 算法 。 

混合 排序 。 利 用 标准 的 高 位 优先 的 字符 串 排序 的 多 向 切 分 优势 处 理 大 型 数组 ， 利 用 三 向 字符 串 快 
速 排序 能 够 避免 产生 大 量 空子 数组 的 特点 处 理 小 型 数组 。 研 究 这 种 想法 的 可 行 性 。 

数组 排序 。 编 写 一 个 方法 ， 使 用 三 向 字符 串 快速 排序 处 理 以 整 型 数组 作为 键 的 情况 。 

亚 线 性 排序 。 编 写 一 个 处 理 int 值 的 排序 算法 ， 记 历数 组 两 遍 ， 第 一 饥 根 据 所 有 键 的 高 16 位 进 
行 低位 优先 的 排序 ， 第 二 遍 进 行 插 和 排序。 

链表 排序 。 编 写 一 个 排序 算法 ， 接 受 一 条 以 String 为 键 值 参数 的 结 点 链表 并 重新 按 顺序 排列 所 
有 结 点 ( 返回 一 个 指向 键 值 最 小 的 结 点 的 指针 ) 。 使 用 三 向 字符 串 快速 排序 。 

原 地 键 索 引 计数 法 。 实 现 一 个 仅 使 用 常数 级 别 的 额外 空间 的 键 索 引 计数 法 。 证 明 你 的 实现 是 稳 
定 的 或 者 提供 一 个 反例 。 


图 实验 十 


5.1.18 


随机 小 数 键 。 编 写 一 个 静态 方法 randomDecima1Keys， 接 受 整 型 参数 N 和 由 并 返回 一 个 含有 N 
个 字符 串 的 数组 ， 每 个 字符 串 都 是 一 个 含有 W 位 数 的 小 数 。 


加 参见 老式 卡片 打 孔 排序 机 。 一 一 译 者 注 


5.1.19 


5.1.20 


5.1.21 


5.1.22 


5.1.23 


5.1.24 
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随机 的 加 利 福 尼 亚 州 车 牌号 。 编 写 一 个 静态 方法 randomP1atesCA， 接 受 一 个 整 型 参数 N 并 返回 
一 个 含有 N 个 字符 串 的 数组 ， 每 个 字符 串 都 是 与 本 节 的 示例 类 似 的 加 利 福 尼 亚 州 的 车 牌号 。 
随机 定 长 单词 。 编 写 一 个 静态 方法 randomFixedLengthwords， 接 受 整 型 参数 N 和 W 并 返回 一 
个 含有 N 个 字符 串 的 数组 ， 每 个 字符 串 都 基于 英文 字母 表 且 长 度 为 W。 

随机 元 素 。 写 一 个 静态 方法 randomItems， 接受 整 型 参数 N 并 返回 一 个 含有 N 个 字符 串 的 数组 ， 
每 个 字符 串 的 长 度 均 在 15 到 30 之 间 且 由 三 个 部 分 组 成 : 第 一 个 部 分 含有 4 个 字符 , 来 自 于 10 
个 固定 的 字符 串 ; 第 二 个 部 分 含有 10 个 字符 ,来 自 于 50 个 固定 的 字符 串 ; 第 三 个 部 分 含有 1 
个 字符 ， 来 自 于 2 个 固定 的 字符 串 ; 第 四 个 部 分 长 15 个 字 节 ， 值 为 长 度 在 4 到 15 之 间 且 向 左 
对 齐 的 随机 字符 串 。 

运行 时 间 。 使 用 多 种 键 生成 器 比较 高 位 优先 的 字符 串 排序 与 三 向 字符 串 快速 排序 的 运行 时 间 。 
对 于 定 长 的 键 ， 在 比较 中 加 入 低位 优先 的 字符 串 排序 算法 。 

数组 访问 。 使 用 多 种 键 生成 器 比较 高 位 优先 的 字符 串 排序 与 三 向 字符 串 快 速 排序 的 数组 访问 次 
数 。 对 于 定 长 的 键 ， 在 比较 中 加 入 低位 优先 的 字符 串 排序 算法 。 

被 访问 的 最 靠 右 的 字符 。 使 用 多 种 键 生成 器 比较 高 位 优先 的 字符 串 排序 与 三 向 字符 串 快 速 排序 
能 够 访问 到 的 最 靠 右 的 字符 的 位 置 。 
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和 排序 一 样 ,我 们 也 可 以 利用 字符 串 的 性 质 开 发 比 第 3 章 中 介绍 的 通用 算法 更 有 效 的 查找 算法 ， 
以 便 用 于 以 字符 串 作为 被 查找 的 键 的 一 般 应 用 程序 。 

具体 来 说 ， 本 节 中 所 讨论 的 算法 在 一 般 应 用 场景 中 (甚至 对 于 巨型 的 符号 表 ) 都 能 够 取得 以 下 
性 能 : 

口 查找 命中 所 需 的 时 间 与 被 查找 的 键 的 长 度 成 正比 ; 

口 查找 未 命中 只 需 检查 若干 个 字符 。 

仔细 思考 过 后 你 会 发 现 ， 这 样 的 性 能 是 相当 惊人 的 。 它 们 是 算法 研究 的 最 高 成 就 之 一 ， 也 是 建 
成 现今 能 够 便捷 、 快 速 地 访问 海量 信息 所 依赖 的 基础 设施 的 重要 因素 。 更 重要 的 是 ， 我们 可 以 扩展 
符号 表 的 API， 添 加 基于 字符 的 用 于 处 理 字符 串 类 型 的 键 的 操作 ( 但 不 必 为 所 有 Comparable 类 型 
的 键 都 添加 类 似 操作 ) 。 它 们 在 实际 应 用 中 非常 强大 并 实用 ， 如 表 5.2.1 所 示 。 


表 5.2.1 以 字符 串 为 键 的 符号 表 的 API 
public class StringST<Value> 





StringSTO) 创建 一 个 符号 表 
void put(String key，Value val) “向 表 中 插入 键 值 对 (如果 值 为 nu11 则 删除 键 key ) 
Value get(String key) 键 key 所 对 应 的 值 ( 如 果 键 不 存在 则 返回 nu11 ) 
void delete(String key) 删除 键 key ( 和 它 的 值 ) 
boolean contains(String key) 表 中 是 否 保存 着 key 的 值 
boolean isEmptyO 符号 表 是 否 为 空 
String longestPrefixOf(String 5) s 的 前 级 中 最 长 的 键 
Iterable<String> keyswithprefix(String 5) 所 有 以 s 为 前 级 的 刍 
Tterable<String> keysThatMatch(String s) 所 有 和 s 匹配 的 键 ( 其 中 “.” 能 够 匹配 任意 字符 ) 
int size() 键 值 对 的 数量 
Iterable<String> keysC) 符号 表 中 的 所 有 键 





这 份 API 与 第 3 章 中 所 介绍 的 符号 表 API 有 以 下 不 同 : 
口 将 泛 型 的 Key 的 类 型 换 成 了 具体 的 类 型 String; 
口 添加 了 3 个 方法 ， longestPrefix0f()、keysWithPrefix() 和 keysThatMatch()。 
本 节 仍 然 遵守 第 3 章 中 实现 符号 表 时 的 几 个 基本 约定 ( 不 接受 重复 键 或 空 键 ， 值 不 能 为 空 ) 。 
从 对 字符 串 的 排序 算法 中 可 以 看 到 ， 指 定 字符 串 的 字母 表 常 常 是 十 分 重要 的 。 对 小 型 字母 表 的 简 
单 而 高 效 的 实现 不 适用 于 大 型 字母 表 ， 这 是 因为 后 者 消耗 的 空间 太 多 。 在 这 种 情况 下 ， 应 该 添加 一 个 
构造 函数 ， 人 允许 用 例 指定 所 使 用 的 字母 表 。 我 们 会 在 本 节 稍 后 讨论 这 个 构造 函数 的 实现 ， 但 目前 暂时 
没有 在 API 中 列 出 它 ， 因 为 要 将 精力 集中 在 字符 串 类 型 的 键 上 。 
下 面 我 们 用 she se11s sea she11s by the sea shore 这 几 个 键 作为 示例 描述 以 下 3 个 新 
方法 。 
口 longestPrefix0f() 接受 一 个 字符 串 参 数 并 返回 符号 表 中 该 字符 串 的 前 级 中 最 长 的 键 。 对 
于 以 上 所 有 键 ，longestPrefix0f("she11") 的 结果 是 she, longestPrefix0f("she1- 
1sort") 的 结果 是 she11s。 
口 keysWithpPrefix() 接受 一 个 字符 串 参数 并 返回 符号 表 中 所 有 以 该 字符 串 作为 前 绷 的 键 。 对 
于 以 上 所 有 键 ,keysWithPrefix("she") 的 结果 是 she 和 she11s,keysWithPrefix ("se") 
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的 结果 是 se11s 和 sea。 
口 keysThatMatch() 接受 一 个 字符 串 参 数 并 返回 符号 表 中 所 有 和 该 字符 串 匹 配 的 键 ， 其 中 参 
数字 符 串 中 的 点 (“.”) 可 以 匹配 任何 字符 。 对 于 以 上 所 有 键 ，keysThatMatch(".he") 
的 结果 是 she 和 the，keysThatMatch("s..") 的 结果 是 she 和 sea。 
在 见 过 这 些 基 本 的 符号 表 方法 后 ， 我 们 将 详细 讨论 这 些 操作 的 的 实现 和 应 用 。 这 些 特 别 的 操作 
是 字符 串 类 型 的 键 所 可 能 进行 的 操作 中 的 代表 操作 ， 我 们 将 会 在 练习 中 讨论 其 他 可 能 的 操作 。 
为 了 突出 中 心思 想 ， 本 节 的 重点 是 put() 、get() 和 新 增 的 几 个 方法 ; (和 第 3 章 一 样 ) 使 用 
了 contains() 和 isEmpty() 的 默认 实现 ， 并 将 size() 和 delete() 的 实现 留 作 练习 。 因 为 字符 
串 都 是 Comparable 的 ， 所 以 可 以 在 API 中 包含 第 3 章 有 序 符号 表 API 中 的 各 种 有 序 性 操作 ( 非常 
值得 这 样 做 ) 。 我 们 将 它们 的 实现 ( 大 多 都 很 简单 ) 留 作 练习 并 放 在 了 本 书 的 网 站 上 。 731 


5.2.1 单词 查找 树 

本 节 中 ， 我 们 要 学 习 一 种 叫做 单词 查找 树 的 数据 结构 。 它 由 字符 串 键 中 的 所 有 字符 构造 而 成， 
允许 使 用 被 查找 键 中 的 字符 进行 查找 。 它 的 英文 单词 trie 来 自 于 E.Fredkin 在 1960 年 玩 的 一 个 文字 
游戏 ， 因 为 这 个 数据 结构 的 作用 是 取出 retrieval ) 数据 ， 但 发 音 为 try 是 为 了 避免 与 ee 相 混淆 。 
我 们 首先 会 描述 单词 查找 树 的 基本 性 质 ， 包 括 查 找 和 插入 算法 ， 然 后 详细 学 习 它 的 数据 表示 方法 和 














Java 实现 。 
5.2.1.1 基本 性 质 
和 各 种 查找 树 一 样 ， 单 词 查找 树 也 是 由 链 i 
接 的 结 点 所 组 成 的 数据 结构 ， 这 些 链接 可 能 为 2 







有 以 s 开 头 的 键 
该 链接 所 指向 的 子 

CD 单词 查找 树 包 含 所 

下 ”有 Pishe 开 头 的 刍 

和 she 关 联 的 值 保 

存在 键 的 最 后 一 个 

@? 人 JJ) (@0"(@)5 字符 所 对 应 的 结 点 中 


空 ， 也 可 能 指向 其 他 结 点 。 每 个 结 点 都 只 可 能 
有 一 个 指向 它 的 结 点 ， 称 为 它 的 父 结 点 ( 只 有 
一 个 结 点 除外 ， 即 根 结 点 ， 没 有 任何 结 点 指向 
根 结 点 ) 。 每 个 结 点 都 含有 有 R 条 链接 ， 其 中 尺 
为 字母 表 的 大 小 。 单 词 查找 树 一 般 都 含有 大 量 


的 空 链接 ， 因 此 在 绘制 一 棵 单词 查找 树 时 一 般 全 全 
会 忽略 空 链接 。 尽 管 链接 指向 的 是 结 点 ， 但 是 2 
也 可 以 看 作 链接 指向 的 是 另 一 棵 单词 查找 树 ， 。。 用 关内 结 点 Wi 天 接 dD “hs 3 
它 的 根 结 点 就 是 被 指向 的 结 点 。 每 条 链接 都 对 。 所 对 应 的 字符 标记 结 点 hell 3 


应 着 一 个 字符 一 因为 每 条 链接 都 只 能 指向 一 
个 结 点 ， 所 以 可 以 用 链接 所 对 应 的 字符 标记 被 图 52.1 单词 在 找 树 详解 
指向 的 结 点 ( 根 结 点 除外 ， 因 为 没有 链接 指向 
它 ) 。 每 个 结 点 也 含有 一 个 相应 的 值 ， 可 以 是 空 也 可 以 是 符号 表 中 的 某 个 键 所 关联 的 值 。 具 体 来 说 ， 
我 们 将 每 个 键 所 关联 的 值 保存 在 该 键 的 最 后 一 个 字母 所 对 应 的 结 点 中 。 我 们 应 该 记 住 非常 重要 的 一 
点 : 值 为 空 的 结 点 在 符号 表 中 没有 对 应 的 键 ， 它 们 的 存在 是 为 了 简化 单词 查找 树 中 的 查找 操作 。 一 
棵 单词 查找 树 的 例子 如 图 5.2.1 所 示 。 
5.2.1.2 单词 查找 树 中 的 查找 操作 

在 单词 查找 树 中 查找 给 定 字符 串 键 所 对 应 的 值 是 一 个 很 简单 的 过 程 ， 它 是 以 被 查找 的 键 中 的 字 
符 为 导向 的 。 单 词 查找 树 中 的 每 个 结 点 都 包含 了 下 一 个 可 能 出 现 的 所 有 字符 的 链接 。 从 根 结 点 开始 
首先 经 过 的 是 键 的 首 字母 所 对 应 的 链接 ; 在 下 一 个 结 点 中 沿 着 第 二 个 字符 所 对 应 的 链接 继续 前 进 ， [732 
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在 第 二 个 结 点 中 沿 着 第 三 个 字符 所 对 应 的 链接 向 前 ， 如 此 这 般 直到 到 达 键 的 最 后 一 个 字母 所 指向 的 
结 点 或 是 遇 到 了 一 条 空 链接 。 这 时 可 能 会 出 现 以 下 3 种 情况 〈 示例 请 见 图 5.2.2 ) 。 
口 键 的 尾 字符 所 对 应 的 结 点 中 的 值 非 空 ( 如 图 5.2.2 中 查找 she11s 和 she 的 示例 ) 。 这 是 一 
次 命中 的 查找 一 一 键 所 对 应 的 值 就 是 键 的 尾 字符 所 对 应 的 结 点 中 保存 的 值 。 
口 键 的 尾 字符 所 对 应 的 结 点 中 的 值 为 室 ( 如 图 5.2.2 中 查找 she11 的 示例 ) 。 这 是 一 次 未 命中 
的 查找 一 一 符号 表 中 不 存在 被 查找 的 键 。 
口 查找 结束 于 一 条 空 链接 ( 如 图 5.2.2 中 查找 shore 的 示例 ) 。 这 也 是 一 次 未 命中 的 查找 。 


命中 的 查找 未 命中 的 查找 
get("shells") 和 get("she11")() 
QQ QQ 
加 四 
© 人 
0 0) 
q) © 
3 
返回 刍 的 尾 字符 对 应 的 键 的 尾 字符 对 应 的 结 点 中 
结 点 中 所 保存 的 值 所 保存 的 值 为 空 ， 返 回 空 
get("she") get("shore") 
0 
查找 可 能 终止 ”一 一 一 
A 没有 与 0 对 应 的 
链接 ， 返 回 空 


图 5.2.2 单词 查找 树 的 查找 示例 
733 在 所 有 的 情况 中 ,执行 查找 的 方式 就 是 在 单词 查找 树 中 从 根 结 点 开始 检查 某 条 路 径 上 的 所 有 结 点 。 











5.2.1.3 ”单词 查找 树 中 的 插入 操作 
和 二 叉 查 找 树 一 样 ， 在 插入 之 前 要 进行 一 次 查找 : 在 单词 查找 树 中 意味 着 沿 着 被 查找 的 键 的 
所 有 字符 到 达 树 中 表示 尾 字符 的 结 点 或 者 一 个 空 链接 。 此 时 可 能 会 出 现 以 下 两 种 情况 。 
口 在 到 达 键 的 尾 字符 之 前 就 遇 到 了 一 个 空 链接 。 在 这 种 情况 下 ,字符 查找 树 中 不 存在 与 键 的 尾 
字符 对 应 的 结 点 ， 因 此 需要 为 键 中 还 未 被 检查 的 每 个 字符 创建 一 个 对 应 的 结 点 并 将 键 的 值 保 
存 到 最 后 一 个 字符 的 结 点 中 。 
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口 在 遇 到 空 链接 之 前 就 到 达 了 键 的 尾 字符 。 在 这 种 情况 下 ， 和 关联 性 数组 一 样 ， 将 该 结 点 的 值 
设 为 键 所 对 应 的 值 (无 论 该 值 是 否 为 空 ) 。 
在 所 有 情况 下 ， 我 们 都 会 检查 键 中 的 每 个 字符 并 为 它们 在 树 中 创建 一 个 对 应 的 结 点 。 在 使 用 第 
3 章 中 的 标准 索引 用 例 处 理 输入 she se11s sea she11s by the sea shore 时 所 构造 的 单词 查找 
树 如 图 5.2.3 所 示 。 
键 什 键 值 
she 0 
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结 
一 根 结 点 及 ” 各 
键 的 值 存在 于 尾 字 4 
母 所 对 应 的 结 点 中 
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© the 5 
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1 5 


sea 2 
Sea 6 
键 是 由 从 根 结 点 中 0 
到 值 所 在 的 结 点 的 
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应 的 结 点 存在 ， 
重 置 它 的 值 


shore 7 O 
和 刍 的 未 尾部 分 字符 对 
应 的 结 训 丰 在 企 因 一 


需要 创建 这 些 结 点 并 将 
值 保存 在 最 后 一 个 结 点 中 
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图 5.2.3 ”标准 索引 用 例 中 单词 查找 树 的 构造 轨迹 
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5.2.1.4 ” 结 点 的 表示 

在 本 节 开头 提 到 过 , 我 们 为 单词 查找 树 所 绘 出 的 图 像 和 在 程序 中 构造 的 数据 结构 并 不 完全 一 致 ， 
因为 我 们 没有 画 出 空 链接 。 将 空 链接 考虑 进来 将 会 突出 单词 查找 树 的 以 下 重要 性 质 : 

口 每 个 结 点 都 含有 R 个 链接 ， 对 应 着 每 个 可 能 出 现 的 字符 ; 

口 字符 和 键 均 隐 式 地 保存 在 数据 结构 中 。 

例如 ， 在 图 5.2.4 中 的 单词 查找 树 中 ， 所 有 的 键 均 由 小 写字 母 组 成 ， 每 个 结 点 都 含有 一 个 值 和 
26 个 链接 。 第 一 条 链接 指向 的 子 单词 查找 树 中 的 所 有 键 的 首 字母 都 是 a， 第 二 条 链接 指向 的 子 单词 
查找 树 中 的 所 有 键 的 首 字母 都 是 b， 等 等 。 


{ I 链接 的 索引 隐 式 地 
7 定义 了 对 应 的 字符 
dibd 
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每 个 结 点 都 含有 一 
个 链接 数组 和 一 个 值 














图 5.2.4 单词 查找 树 的 表示 (R=26) 


在 单词 查找 树 中 ， 键 是 由 从 根 结 点 到 含有 非 空 值 的 结 点 的 路 径 所 隐 式 表示 的 。 例 如 ， 在 单词 查 
找 树 中 ， 字 符 串 sea 所 关联 的 值 是 2， 因 为 根 结 点 中 的 第 19 条 链接 ( 指向 由 所 有 以 s 开头 的 键 组 
成 的 子 单词 查找 树 ) 非 空 ， 下 一 个 结 点 中 的 第 5 条 链接 ( 指向 由 所 有 以 se 开头 的 键 组 成 的 子 单词 
查找 树 ) 非 空 ， 第 三 个 结 点 中 的 第 1 条 链接 ( 指向 由 所 有 以 sea 开头 的 键 组 成 的 子 单词 查找 树 ) 的 
值 为 2。 数据 结构 既 没 有 保存 字符 串 sea 也 没有 保存 字符 s、e 和 a。 事 实 上 ， 数 据 结构 不 会 存储 任 
何 字符 串 或 字符 ， 它 保存 了 链接 数组 和 值 。 因 为 参数 R 的 作用 的 重要 性 ， 所 以 将 基于 含有 有 个 字符 
的 字母 表 的 单词 查找 树 称 为 R 向 单词 查找 树 。 

有 了 这 些 预 备 知识 之 后 ， 算 法 5.4 实现 的 符号 表 TrieST 就 很 容易 理解 了 。 它 也 使 用 了 类 似 于 
第 3 章 介绍 的 查找 树 使 用 的 递归 方法 。 它 的 私有 Node 类 用 实例 变量 val 保存 键 相 关联 的 值 并 用 
数组 next[] 保存 所 有 指向 其 他 Node 对 象 的 引用 。 这 i 
些 递归 方法 的 实现 非常 简洁 ， 值 得 仔细 研究 。 下 面 ， return sizeCroot); } 
我 们 将 讨论 接受 一 个 Alphabet 对 象 作为 参数 的 构造 。 private int sizeCNode x) 
函 数 和 size()、keysC) 、longestPrefixofO 、 工 
keyswithprefix()、keysThatMatch() 和 
delete() 方法 的 实现 。 理 解 这 些 递归 方法 也 并 不 困 ns: 
难 ， 只 是 每 个 方法 都 会 比 前 一 个 稍 加 复杂 。 for (char c = 0; c < Ri c++) 
5.2.1.5 大 小 cnt += size(next[c]); 

和 第 3 章 中 的 二 又 查找 树 一 样 ，sizeC 方法 的 实 。 "em cn 
现 有 以 下 3 种 显而易见 的 选择 。 

口 即时 实现 : 用 一 个 实例 变量 保存 键 的 数量 。 单词 查找 树 的 延 时 递归 方法 sizeO 


if (x 一 nul1) return 0; 
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口 更 加 即时 的 实现 : 用 结 点 的 实例 变量 保存 子 单词 查找 树 中 键 的 数量 ， 在 递归 的 put() 和 
delete() 方法 调用 之 后 更 新 它们 。 
口 延 时 递归 实现 : 如 上 页 框 注 “ 单 词 查找 树 的 延 时 递归 方法 sizeC)” 所 示 。 它 会 遍历 单词 查 
找 树 中 的 所 有 结 点 并 记录 非 空 值 结 点 的 总 数 。 
和 二 又 查找 树 一 样 ， 延 时 实现 很 有 指导 意义 但 是 应 该 尽量 避免 ， 因 为 它 会 给 用 例 造成 性 能 上 的 
问题 。 我 们 会 在 练习 中 讨论 它 的 即时 实现 。 736| 


算法 5.4 ”基于 单词 查找 树 的 符号 表 


public class TrieST<Value> 
‘ 
private static int R = 256; // 基数 
private Node root; // 单词 查找 树 的 根 结 点 

















private static class Node 
{ 

private Object val; 

private Node[] next = new Node[R]; 
} 


public Value get(String key) 

{ 
Node x = get(root, key, 0); 
if (x == nul1) return null; 
return (Value) x.val; 


} 


private Node get(Node x, String key, int d) 
长 // 返回 以 x 作 为 根 结 点 的 子 单词 查 找 树 中 与 key 相 关联 的 值 
if (x == nu11) return null; 
if (d == key.length()) return x; 
Char c = key.charAt(d); // 找到 第 c 个 字符 所 对 应 的 于 单词 查找 树 
return get(x.next[c], key, d+1); 
} 


public void put(String key, Value val) 
{ root = put(root, key, val, 0); } 


private Node put(Node x, String key, Value val, int d) 

{ // 如 果 Kkey 存 在 于 以 x 为 根 结 点 的 子 单词 查找 树 中 则 更 新 与 它 相 关联 的 值 
if (x == nul1) x = new NodeO; 
if (d == key.lengthO)) { x.val = val; return xi } 
char c = key.charAt(d); // 找到 第 d 个 字符 所 对 应 的 于 单词 查找 树 
x.next[c] = put(x.next[c], key, val, d+1); 
return x; 

} 

} 


这 份 代码 使 用 R 向 单词 查找 树 实现 了 符号 表 。 我 们 会 在 下 面 的 几 页 中 讨论 表 5.2.1 中 字符 品 符号 
表 API 中 新 增 的 方法 。 我 们 很 容易 通过 修改 这 段 代 码 来 处 理 特殊 字母 表 中 的 键 (请 见 5.2.1.8 节 ) 。 因 


为 Java 不 支持 泛 型 数组 ， 所 以 Node 中 的 值 的 类 型 必须 是 Object， 可 以 在 get() 中 将 值 的 类 型 转换 为 
Value。 737| 
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5.2.1.6 ”查找 所 有 键 

因为 字符 和 键 是 被 隐 式 地 表示 在 单词 查找 树 中 ， 所 以 使 用 例 能 够 遍历 符号 表 的 所 有 键 就 变 得 有 
些 困难 。 在 二 又 查找 树 中 , 我 们 将 所 有 字符 串 键 保存 在 一 个 队列 ( Queue ) 里 。 但 对 于 单词 查找 树 ， 
不 仅 要 能 够 在 数据 结构 中 找到 这 些 键 ， 还 需要 显 式 地 表示 它们 。 我 们 用 一 个 类 似 于 sizeQ 的 私有 
递归 方法 collect() 来 完成 这 个 任务 ， 它 维护 了 一 个 字符 串 用 来 保存 从 根 结 点 出 发 的 路 径 上 的 一 
系列 字符 。 每 当 我 们 在 co11ect() 调用 中 访问 一 个 结 点 时 ， 方 法 的 第 一 个 参数 就 是 该 结 点 ， 第 二 
个 参数 则 是 和 该 结 点 相关 联 的 字符 串 ( 从 根 结 点 到 该 结 点 的 路 径 上 的 所 有 字符 ) 。 在 访问 一 个 结 点 
时 ， 如 果 它 的 值 非 空 ， 我 们 就 将 和 它 相 关联 的 字符 串 加 入 队列 之 中 ， 然 后 ( 递归 地 ) 访问 它 的 链接 
数组 所 指向 的 所 有 可 能 的 字符 结 点 。 在 每 次 调用 之 前 ， 都 将 链接 对 应 的 字符 附加 到 当前 键 的 末尾 作 
为 调用 的 参数 键 。 用 这 个 collect0 方法 为 API 中 的 keys() 和 keyswWithPrefix() 方法 收集 符 
号 表 中 所 有 的 键 。 要 实现 keysQ 方法 ， 可 以 以 空 字符 串 作为 参数 调用 keysWwithPrefix() 方法 。 
要 实现 keysWwithPrefix() 方法 ， 可 以 先 调用 get 0) 找 出 给 定 前 级 所 对 应 的 单词 查找 树 ( 如 果 不 
存在 则 返回 nu11) ， 再 使 用 collect() 方法 完成 任务 。 图 5.2.5 显示 了 collect0 方法 ( 或 者 说 
keyswithPrefix("") 调用 ) 在 一 棵 单词 查找 树 中 的 轨迹 ， 它 给 出 了 每 次 调用 co11ect() 方法 时 第 
二 个 参数 的 值 和 队列 的 内 容 。 图 5.2.6 显示 了 keysWithPrefix("sh") 的 运行 过 程 。 









public Iterable<String> keys(O) keyswithprefix(""); 
{ return keysWithprefix(™"); } 键 q 
public Iterable<String> b 
keysWithprefix(String pre) wy by 
{ 
Queue<String> q = new Queue<String>O; = sie sea 
collect(get(root, pre, 0), pre, q); sel 
return q; sell 
sells sells 
sh 
private void collect(Node x, String pre, sh 
i She 
Queue<String> 9) shell 
if Cx = nu1D) return; ho 
if (x.val != null) q.enqueue(pre); shore shore 
for (char c = 0; c < Ri c++) : 
ti 
collect(x.next[c], pre + c，9); ee Po 
收集 一 棵 单词 查找 树 中 的 所 有 键 图 5.2.5 收集 一 棵 单词 查找 树 中 的 所 有 键 的 轨迹 
keyswithprefix("sh"); 
键 9 
sh 
js she 
she 
中 和 sen 
shells shells 
Sd (oo) io 
shor 
找 出 和 所 有 以 "sh" DO shore shore 
a 人 D 97、 收集 该 子 单词 查 
3 找 树 中 的 所 有 键 


图 5.2.6 单词 查找 树 中 的 前 级 匹配 
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5.2.1.7 ”通配符 匹配 

我 们 可 以 用 一 个 类 似 的 过 程 实现 keysThatMatch() ， 但 需要 为 co1lect0) 方法 添加 一 个 参数 
来 指定 匹配 的 模式 。 如 果 模式 中 含有 通配符 ， 就 需要 用 递归 调用 处 理 所 有 的 链接 ， 否 则 就 只 需要 处 
理 模式 中 指定 字符 的 链接 即 可 ,如 下 方 的 框 注 所 示 。 你 还 可 以 注意 到 ， 这 里 不 需要 考虑 长 度 超过 模 
式 字符 串 的 键 。 


public Iterable<String> keysThatMatch(String pat) 
{ 
Queue<String> q = new Queue<String>(); 
collect(root, "", pat, q); 
return q; 
性 


public void collect(Node x, String pre，String pat，Queue<String> q) 
{ 

int d = pre.lengthO; 

if (x == nul1) return; 

if (d == pat.length() && x.val != nul1) q.enqueue(pre); 

if (d == pat,lengthO) return; 


char next = pat.charAt(d); 
for (char c = 0; c < Ri c++) 
if (next == '.' || next == c) 
collect(x.next[c], pre + ¢, pat, q); 


单词 查找 树 中 的 通配符 匹配 


5.2.1.8 ”最 长 前 级 

为 了 找到 给 定 字符 串 的 最 长 键 前 级 ， 就 需要 使 用 一 个 类 似 于 get() 的 递归 方法 。 它 会 记录 查找 
路 径 上 所 找到 的 最 长 键 的 长 度 (将 它 作为 递归 方法 的 参数 在 过 到 值 非 空 的 结 点 时 更 新 它 ) 。 查 找 会 
在 被 查找 的 字符 串 结 束 或 是 过 到 空 链接 时 终止 ， 请 见 图 5.2.7。 


public String longestPrefixOf(String s) 
{ 
int length = search(root, s, 0, 0); 
return s.substring(0, length); 
了 


private int search(Node x，String s, int d, int length) 
{ 

if (x == nul1) return length; 

if (x.val 1= nul1) length = d; 

if (d == s.length()) return length; 

char c = s.charAt(d); 

return search(x.next[c], s, d+1, length); 


对 给 定 字符 串 的 最 长 前 组 进行 匹配 
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5.2.1.9 删除 操作 "te" 
从 一 棵 单词 查找 树 中 删 去 一 个 键 值 对 的 第 一 步 是 ， 找 到 键 


所 对 应 的 结 点 并 将 它 的 值 设 为 空 (nu11) 。 如 果 该 结 点 含有 一 
个 非 空 的 链接 指向 某 个 子 结 点 ， 那 么 就 不 需要 在 进行 其 他 操作 


0 
了 。 如 果 它 的 所 有 链接 均 为 空 ， 那 就 需要 从 数据 结构 中 删 去 这 入水 检 
个 结 点 。 如 果 删 去 它 使 得 它 的 父 结 点 的 所 有 链接 也 均 为 空 ， 就 的 值 非 室 ， 碍 
需要 继续 删除 它 的 父 结 点 ， 依 此 类 推 。 如 下 面 框 注 中 的 实现 所 ee 


示 ， 根 据 标准 递归 流程 ， 这 项 操作 所 需 的 代码 极 少 : 在 递归 删 


除了 某 个 结 点 x 之 后 ， 如 果 该 结 点 的 值 和 所 有 的 链接 均 为 空 则 2 
返回 nu11， 和 否则 返回 x， 请 见 图 5.2.8。 
被 查找 的 字符 


public void delete(String key) 
{ root = delete(root，key，0); } Dr 
， 返 回 
pi 1 
ee- 


private Node delete(Node x, String key, int d) 
{ 

if (x == nul1) return null; 

if (d == key.length()) 


x.val = null; ee 
else 
{ 
char c = key.charAt(d); 
x.next[c] = delete(x.next[c], key, d+1); 
} 
if (x.val != nu11) return x; 
for (char c = 0; c < Ri c++) 查找 在 空 链接 
if (x.next[c] != nul1) return xi 处 结束 ， 返 回 
return nu11; "shells" 
} 693 (路径 上 最 近 
的 一 个 键 
从 单词 查找 树 中 删除 一 个 键 (和 它 相关 联 的 值 ) a 
5.2.1.10 ”字母 表 
和 以 前 一 样 ， 算 法 54 处 理 的 是 Java 的 String 类 型 的 键 ， 
但 将 它 修改 为 处 理由 任意 字母 表 得 到 的 键 也 很 容易 。 
全 训 中 查找 在 空 链接 
口 实现 一 个 构造 函数 , 接受 一 个 Alphabet 对 象 作为 参数 ， 处 结束 ， 近 加 
将 一 个 Alphabet 类 型 的 实例 变量 设 为 该 参数 的 值 并 Dh 


将 实例 变量 R 的 值 设 为 字母 表 中 字母 的 个 数 。 个 键 ) 
口 在 get() 和 put() 中 使 用 Alphabet 类 的 toIndexO 
方法 ,将 字符 串 中 的 字符 转化 为 0 到 R-1 之 间 的 索引 值 。 
口 使 用 Alphabet 类 的 toCharO 方法 ,将 0 到 R-l 之 间 的 站 
索引 值 转化 为 字符 型 (char ) 的 值 。getO 和 putO 方法 fixOf CO 
不 需要 进行 此 操作 ， 但 它 在 keysO 、keysWithPrefixO) pe 
和 keysThatMatch() 方法 的 实现 中 很 重要 。 
经 过 这 些 修改 ， 如 果 已 知 所 有 键 仅 来 自 于 一 个 小 型 的 字母 表 ， 那 可 以 节省 相当 大 的 空间 ( 在 每 个 
结 点 中 仅 使 用 R 条 链接 ) ， 代 价 是 字母 和 索引 相互 转化 所 需要 的 时 间 。 
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delete("shel1s"); 
O 
Q QQ、 


th) 
© Oo 
© 
将 值 
QD / 轩 为 宝 
SY | 非 空 值 ， 不 能 出 去 结 点 非 空 链接 
(返回 指向 结 点 的 链接 ) 


值 和 链接 均 为 空 ， 删 去 
结 点 (返回 一 个 空 链接 ) 


图 5.2.8 ”从 单词 查找 树 中 删除 一 个 键 (和 它 相 关联 的 值 ) 
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框 注 “ 从 单词 查找 树 中 删除 一 个 键 (和 它 相 关联 的 值 ) ”就 是 字符 串 符号 表 API 的 一 个 简洁 而 
完整 的 实现 ， 它 适用 于 各 种 实际 应 用 场景 。 本 节 的 练习 讨论 了 它 的 几 种 变化 和 扩展 。 下 面 我 们 要 讨 
论 单词 查找 树 的 基本 性 质 和 限制 条 件 。 


5.2.2 单词 查找 树 的 性 质 
和 以 前 一 样 ， 我 们 希望 知道 在 一 般 的 应 用 程序 中 使 用 单词 查找 树 所 需要 的 时 间 和 空间 。 单 词 查 
找 树 已 经 被 分 析 和 研究 得 很 透彻 了 ， 它 的 基本 性 质 也 比较 容易 理解 和 应 用 。 


命题 F。 单 词 查找 树 的 链表 结构 ( 形状 ) 和 键 的 插入 或 删除 顺序 无 关 : 对 于 任意 给 定 的 一 组 键 ， 
其 单词 查找 树 都 是 唯一 的 。 


证 明 。 由 数学 归纳 法 很 容易 通过 子 单词 查找 树 证 明 这 个 结论 。 


这 个 基本 的 结论 是 单词 查找 树 的 一 个 特殊 性 质 : 我 们 目前 已 经 学 过 的 所 有 其 他 结构 的 查找 树 的 
构造 都 不 仅 和 键 的 集合 有 关 ， 而 且 还 取决 于 这 些 键 的 插入 顺序 。 
5.2.2.1 ”最 坏 情况 下 查找 和 插入 操作 的 时 间 界 限 

在 单词 查找 树 中 找到 给 定 键 的 值 要 花 多 长 时 间 ? 对 于 二 叉 查 找 树 、 散 列表 和 第 3 章 中 所 介绍 的 
其 他 算法 ， 都 需要 使 用 数学 分 析 来 回答 这 个 问题 。 但 是 对 于 单词 查找 树 ， 这 个 问题 很 简单 。 


命题 G。 在 单词 查找 树 中 查找 一 个 键 或 是 插入 一 个 键 时 ， 访 问 数组 的 次 数 最 多 的 键 的 长 度 加 1。 


证 明 。 由 代码 可 知 ，put() 和 get() 方法 的 递归 实现 都 带 有 一 个 参数 d。 它 的 初始 值 为 0， 每 
次 调用 时 都 会 加 1， 当 长 度 等 于 键 的 长 度 时 递归 调用 停止 。 


从 理论 角度 来 说 ,命题 G 意味 着 单词 查找 树 对 于 命中 的 查找 是 最 理想 的 一 -我们 不 能 奢望 查找 
所 需 的 时 间 比 与 被 查找 的 键 的 长 度 成 正比 更 好 。 无 论 使 用 的 是 什么 算法 和 数据 结构 ， 在 检查 完 要 查 
找 的 键 中 的 所 有 字符 之 前 都 是 无 法 判断 是 否 已 找到 该 键 。 从 实际 角度 来 说 ， 这 个 保证 也 很 重要 ， 因 
为 它 和 符号 表 中 键 的 数量 无 关 : 当 我 们 在 处 理 类 似 于 车 牌号 码 的 7 个 字符 的 键 时 ， 可 以 知道 查找 或 
插 人 操作 最 多 只 需要 检查 8 个 : 当 我 们 在 处 理 20 个 字符 的 数字 账号 时 ， 最 多 只 需要 检查 21 个 
结 点 就 可 以 完成 查找 或 插入 操作 。 
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5.2.2.2 ”查找 未 命中 的 预期 时 间 界 限 

假设 我 们 正在 单词 查找 树 中 查找 一 个 键 ， 发 现 根 结 点 中 与 被 查找 键 的 第 一 个 字符 所 对 应 的 链接 
为 空 。 此 时 只 检查 了 一 个 结 点 就 知道 了 该 键 不 存在 于 表 中 。 这 种 情况 是 很 常见 的 ， 单 词 查找 树 的 最 
重要 的 性 质 之 一 就 是 未 命中 的 查找 一 般 都 只 需要 检查 很 少 的 几 个 结 点 。 如 果 假 设 键 都 来 自 于 随机 字 
符 串 模型 (R 中 的 所 有 不 同 字符 出 现 的 几率 均 相同 ) ， 可 以 证 明 以 下 结论 。 


命题 H。 字 母 表 的 大 小 为 R， 在 一 棵 由 入 个 随机 键 构造 的 单词 查找 树 中 ， 未 命中 查找 平均 所 需 
检查 的 结 点 数量 为 ~logaN。 
简略 证 明 ( 写 给 熟悉 概率 分 析 的 读者 ) 。 所 有 的 NN 个 键 都 与 一 个 随机 的 查找 键 的 前 1 个 字符 中 
至 少 有 一 个 字符 不 同 的 概率 为 (1-R")"。 用 1 减 去 它 即 可 得 到 单词 查找 树 中 至 少 有 一 个 键 和 被 查 
找 键 的 前 1 个 字符 都 相 匹 配 的 概率 。 也 就 是 说 ，1-(1-R" 的 查找 操作 至 少 需要 比较 1 个 字符 的 
概率 。 在 概率 分 析 中 ， 对 于 (=0,1,2…， 一 个 整数 随机 变量 大 于 1 的 概率 之 和 就 是 该 随机 变量 的 
平均 值 。 因 此 ， 查 找 的 平均 成 本 为 : 
1-(1-R +1-(1R + (RY + 

根据 基本 的 近似 公式 (1-1/x)~e"， 查 找 的 平均 成 本 的 近似 函数 为 : 

1-(1- erwA' YHA ENE tet eM )heee 
当 民 远 小 于 入 时 ， 相 对 应 的 约 InaN 项 的 值 非常 接近 于 1; 当 民 远大 于 和 时， 所 对 应 的 所 有 的 
项 的 值 均 极为 接近 于 0; 当 尺 =N 时， 所 对 应 的 项 不 多 且 它 们 的 值 均 在 0 和 1 之 间 。 因 此 ， 它 
的 总 和 约 为 logaN。 


从 实际 角度 来 说 , 该 命题 说 明 的 最 重要 的 一 点 就 是 , 查找 未 命中 的 成 本 与 键 的 长 度 无 关 。 例 如 ， 
它 说 明 在 一 棵 由 100 万 个 随机 键 构造 出 的 单词 查找 树 中 ， 未 命中 的 查找 也 只 需要 检查 3~4 个 结 点 ， 
无 论 这 些 键 是 含有 7 个 数字 的 车 辆 牌照 还 是 20 个 数字 的 账号 。 虽 然 在 实际 应 用 中 真正 的 随机 键 是 不 
可 能 出 现 的 ,但 该 模型 能 够 描述 一 般 应 用 场景 中 单词 查找 树 算法 对 键 的 处 理 方式 , 上述 猜想 是 合理 的 。 
事实 上 ， 这 种 行为 方式 在 实际 应 用 中 十 分 常见 而 且 也 是 单词 查找 树 得 到 广泛 应 用 的 一 个 重要 原因 。 
5.2.2.3 空间 

一 棵 单词 查找 树 需要 多 少 空间 ?回答 这 个 问题 (了 解 可 用 的 空间 有 多 少 ) 是 有 效 使 用 单词 查找 
树 的 关键 。 





命题 |。 一 棵 单词 查找 树 中 的 链接 总 数 在 RN 到 RNw 之 间 ， 其 中 w 为 键 的 平均 长 度 。 


证 明 。 在 单词 查找 树 中 ， 每 个 键 都 有 一 个 对 应 的 结 点 保存 着 它 关 联 的 值 ， 同 时 每 个 结 点 也 含有 
及 条 链接 ， 因 此 链接 总 数 至 少 有 RN 条 。 如 果 所 有 的 键 的 首 字母 均 不 相同 ， 那 么 每 个 键 中 的 每 
个 字母 都 有 一 个 对 应 的 结 点 ， 因 此 链接 总 数 应 该 等 于 尺 乘 以 所 有 键 中 的 字符 总 数 ， 即 RNw。 


表 5.2.2 说 明了 我 们 所 讨论 的 一 些 典 型 的 应 用 场景 所 需 的 空间 成 本 。 它 说 明了 单词 查找 树 中 的 
一 些 经 验 性 的 规律 。 

口 当 所 有 键 均 较 短 时 ， 链 接 的 总 数 接近 于 RN; 

口 当 所 有 键 均 较 长 时 ， 链 接 的 总 数 接近 于 RNw; 
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口 因此 , 缩小 R 能 够 节省 大 量 的 空间 。 
这 张 表 传 递 出 的 另 一 条 更 加 微妙 的 信息 是 ， 在 实际 应 用 中 采用 单词 查找 树 之 前 了 解 将 要 被 插入 
的 所 有 键 的 性 质 是 非常 重要 的 。 


表 5.2.2 典型 的 单词 查找 树 的 空间 需求 








100 万 个 键 所 构 ; i 
应 用 典型 的 键 平均 长 度 w 字母 表 大 小 及 et 
树 中 的 链接 总 数 
加 利 福 尼 亚 州 的 车 牌号 。 4PGC938 256 2 亿 5 千 6 百 万 
a 256 40 亿 
数字 账号 02400019992993299111 20 10 2 亿 5 千 6 百 万 
URL Www.cs.princeton.edu 28 256 40 亿 
文本 处 理 seashells 11 256 2 亿 5 千 6 百 万 
基因 组 数据 中 的 蛋白 质 。 ACTGACTG 8 2 2 We 
5.2.2.4 单 向 分 支 put("shells", 


Ds 要 
长 刍 在 单词 查找 树 中 占用 了 大 量 空间 的 主要 原因 PtC she fish ，3; 


是 ， 树 中 的 长 键 通常 都 有 一 条 长 长 的 “尾巴 ”， 其 中 每 。 ”标准 的 单词 查找 树 。 ”不 存在 单 向 分 支 的 情况 


个 结 点 都 只 含有 一 条 指向 下 一 个 结 点 的 链接 ( 因此 都 
含有 R-1 条 空 链接 ) 。 这 种 情况 并 不 难 纠正 ( 请 见 练 区 





习 5.2.11 和 图 5.2.9 ) 。 单 词 查 找 树 的 内 部 也 可 能 存在 
单 向 的 分 支 。 例 如 ， 两 个 长 键 可 能 只 有 最 后 一 个 字符 
不 同 ,解决 这 种 情况 要 更 加 困难 一 些 ( 请 见 练习 5.2.12 )。 
这 些 修改 能 够 使 得 单词 查找 树 的 空间 消耗 比 已 经 讨论 
过 的 简单 实现 缩小 许多 ， 但 它们 对 于 实际 应 用 场景 基 
本 不 起 作用 。 下 面 我 们 将 学 习 降低 单词 查找 树 的 空间 
消耗 的 另 一 种 方式 。 

我 们 的 底线 是 : 不 要 使 用 算法 5.4 处 理 来 自 于 大 
型 字母 表 的 大 量 长 键 。 它 所 构造 的 单词 查找 树 所 需要 
的 空间 与 R 和 所 有 键 的 字符 总 数 之 积 成 正比 。 但 是 ， 
如 果 你 能 够 负担 得 起 这 么 庞大 的 空间 ， 单 词 查找 树 的 
性 能 是 无 可 匹敌 的 。 


5.2.3 三 向 单词 查找 树 图 5.2.9 ”消除 单词 查找 树 中 的 单 向 分 支 


为 了 避免 RR 向 单词 查找 树 过 度 的 空间 消耗 ， 我 们 现在 来 学 习 另 一 种 数据 的 表示 方法 .三 向 单词 查 
找 树 (TST) 。 在 三 向 单词 查找 树 中 ， 每 个 结 点 都 含有 一 个 字符 、 三 条 链接 和 一 个 值 。 这 三 条 链接 分 
别 对 应 着 当前 字母 小 于 、 等 于 和 大 于 结 点 字母 的 所 有 键 。 在 算法 5.4 的 R 向 单词 查找 树 中 ， 树 的 结 点 
含有 RR 条 链接 ， 每 个 非 空 链接 的 索引 隐 式 地 表示 了 它 所 对 应 的 字符 。 在 等 价 的 三 向 单词 查找 树 中 ， 字 
符 是 显 式 地 保存 在 结 点 中 的 一 一 只 有 在 沿 着 中 间 链 接 前 进 时 才 会 根据 字符 找到 表 中 的 键 , 请 见 图 5.2.10。 
查找 与 插入 操作 

用 三 向 单词 查找 树 实现 符号 表 API 中 的 查找 和 插入 操作 很 简单 。 在 查找 时 ， 我 们 首先 比较 键 的 
首 字母 和 根 结 点 的 字母 。 如 果 键 的 首 字母 较 小 , 就 选择 左 链接 ; 如 果 较 大 , 就 选择 右 链接 ; 如 果 相等 ， 


内 部 的 单 向 分 支 


中 外 部 的 单 向 分 支 
G) 744| 
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则 选择 中 链接 。 然 后 ， 递 归 地 使 用 相同 的 算法 。 如 果 遇 到 了 一 个 空 链接 或 者 当 键 结束 时 结 点 的 值 为 
空 ， 那么 查找 未 命中 ; 如 果 键 结束 时 结 点 的 值 非 空 则 查找 命中 。 在 插入 一 个 新 键 时 ， 首 先进 行 查找 ， 
然后 和 在 单词 查找 树 一 样 ， 在 树 中 补 全 键 未 尾 的 所 有 结 点 。 算 法 5.5 给 出 了 这 些 方法 的 实现 细节 。 

这 种 实现 方式 等 价 于 将 R 向 单词 查找 树 中 的 每 个 结 点 实现 为 以 非 空 链接 所 对 应 的 字符 作为 键 
的 二 又 查找 树 。 不 同 的 是 ， 算 法 5.4 使 用 的 是 由 键 索引 的 数组 。 图 5.2.10 显示 了 一 棵 单词 查找 树 
和 与 它 相对 应 的 三 向 单词 查找 树 。 按 照 第 3 章 中 所 述 的 二 叉 查找 树 和 其 他 排序 算法 之 间 的 对 应 关 
系 来 看 ， 我 们 可 以 发 现 三 向 单词 查找 树 与 三 向 字符 串 
快速 排序 之 间 的 对 应 关系 与 二 叉 查 找 树 与 快速 排序 以 
及 单词 查找 树 与 高 位 优先 的 排序 之 间 的 对 应 关系 是 一 
样 的 。 图 5.1.12 和 图 5.1.17 分 别 显 示 了 高 位 优先 的 字 
符 串 排序 和 三 向 字符 串 快速 排序 的 递归 调用 结构 ， 它 
们 与 图 5.2.10 中 由 同一 组 键 所 构造 的 单词 查找 树 和 三 
向 单词 查找 树 正好 完全 对 应 。 单 词 查找 树 中 的 链接 所 
占用 的 空间 即 为 高 位 优先 的 字符 串 排序 中 的 计数 器 所 
占用 的 空间 。 三 向 分 支 为 两 者 都 提供 了 一 个 非常 有 效 
的 解决 方案 ， 请 见 图 5.2.11 和 图 5.2.12。 





a get("sea") 匹配 ， 选 择 中 链接 ， 
tle 指向 所 有 首 字母 继续 处 理 下 一 个 字符 
是 5 的 键 的 链接 不 匹配 : 选择 左 链接 或 者 

N 右 链接 ， 但 当前 字符 不 变 










14_() lo (ro(e)s 
JR ur 
每 个 结 点 都 / 
含有 三 个 链接 一、(Sy (人 eyy 
返回 和 键 的 尾 字 
符 相 关联 的 值 
图 5.2.10 一 棵 单词 查找 树 所 对 应 的 三 向 图 5.2.11 三 向 单词 查找 树 中 的 查找 示例 
单词 查找 树 
算法 5.5 ”基于 三 向 单词 查找 树 的 符号 表 
public class TST<Value> 
{ 
private Node root; // 树 的 根 结 点 
private class Node 
{ 
char c; // 字符 
Node left, mid, right; // 左 申 右 于 三 向 单词 查找 树 


Value val; // 和 字符 囊 相关 联 的 值 
二 
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public Value get(String key) // 和 单词 查找 树 相同 (请 见 算法 5.4 ) 


private Node get(Node x, String key, int d) 

4 
if (x == nu11) return null; 
char c = key.charAt(d); 
if (Cc < x.c) return get(x.left, key, d); 
else if (c > x.c) return get(x.right, key, d); 
else if (d < key.length() - D) 

return get(x.mid, key, d+1); 

else return x; 

剖 


public void put(String key, Value val) 
{ root = put(root, key, val, 0); } 


private Node put(Node x, String key, Value val, int d) 
{ 
char c = key.charAt(d); 
if (x 一 nulD) { x = new NodeO; x.c = c; } 
if (Cc < x.c) x.left = put(x.left, key, val, d); 
else if (c > x.c) x.right = put(x.right, key, val, d); 
else if (d < key.lengthO - 1) 
xmid = putCx.mid， key, val, d+1); 
else x.val = val; 
return Xi 


} 
这 段 实现 使 用 含有 一 个 char 类 型 的 值 c 和 三 条 链接 的 结 点 构建 了 三 向 单词 查找 树 ， 其 中 子 树 的 刍 
的 首 字母 分 别 小 于 ( 左 子 树 ) 、 等 于 ( 中 子 树 ) 和 大 于 ( 右 子 树 ) c。 





标准 的 链接 数组 “R=26) 三 向 单词 查找 树 


指向 所 有 以 s (9 
~ 一 一 一 开头 的 刍 的 链接 
[ AR IT IT TI 


指向 所 有 以 一 
Su 开头 的 键 
的 链接 


图 5.2.12 单词 查找 树 结 点 示例 








5.2.4 三 向 单词 查找 树 的 性 质 

三 向 单词 查找 树 是 R 向 单词 查找 树 的 紧凑 表示 ， 但 两 种 数据 结构 的 性 质 截然 不 同 。 这 其 中 最 重 
要 的 不 同 可 能 在 于 命题 A 对 于 三 向 单词 查找 树 不 再 成 立 ， 和 其 他 所 有 二 叉 查找 树 一 样 ， 每 个 单词 查 
找 树 结 点 的 二 叉 查 找 树 表示 也 取决 于 键 的 插入 顺序 。 
5.2.4.1 空间 

三 向 单词 查找 树 最 重要 的 性 质 就 是 每 个 结 点 只 含有 三 个 链接 ， 因 此 三 向 单词 查找 树 所 需要 空间 
远 小 于 对 应 的 单词 查找 树 。 
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命题 J。 由 N 个 平均 长 度 为 w 的 字符 串 构造 的 三 向 单词 查找 树 中 的 链接 总 数 在 3N 到 3Nw 之 间 。 
证 明 。 同 命题 T。 


三 向 单词 查找 树 实际 使 用 的 内 存 空间 一 般 都 低 于 由 每 个 字符 三 个 链接 得 到 的 上 界 ， 因 为 有 相同 
前 级 的 键 会 共享 树 中 的 高 层 结 点 。 
5.2.4.2 ”查找 成 本 

要 计算 三 向 单词 查找 树 中 查找 ( 和 插入 ) 操作 的 成 本 ， 需 要 将 它 所 对 应 的 单词 查找 树 中 的 查找 
成 本 乘 以 遍历 每 个 结 点 的 二 叉 查 找 树 所 需 的 成 本 


命题 K. 在 一 棵 由 NN 个 随机 字符 囊 构造 的 三 向 单词 查找 树 中 ,查找 未 命中 平均 需要 比较 字符 ~ InN 次 。 
除 ~ InN 次 外 ， 一 次 插入 或 命中 的 查找 会 比较 一 次 被 查找 的 键 中 的 每 个 字符 。 


证 阴 。 由 代码 我 们 马上 可 以 得 到 插入 和 查找 命中 的 成 本 。 查 找 未 命中 的 成 本 的 证 明和 命题 日 的 
简略 证 明 相同 。 假 设 在 查找 路 径 上 除了 常数 个 结 点 (高 层 的 几 个 ) 之 外 的 其 他 所 有 结 点 均 为 由 
及 个 字符 值 随 机 构造 的 二 又 查找 树 ， 且 树 的 平均 路 径 长 度 为 InR， 因 此 将 时 间 成 本 logaN=InN/ 
lnR 乘 以 InR。 


在 最 坏 情况 下 ， 一 个 结 点 可 能 变 成 一 个 完全 的 有 向 不 平衡 日 像 一 条 链表 一 样 展开 ， 因 此 
需要 乘 以 一 个 系数 R。 一 般 的 情况 下 ， 在 第 一 层 ( 因为 根 结 点 类 似 于 一 棵 由 个 不 同 的 值 组 成 的 随 
机 二 又 查找 树 ) 甚至 是 其 下 的 几 层 ( 如 果 键 存在 公共 的 前 级 且 前 弘之 后 的 字符 最 多 可 能 有 R 种 不 同 
的 取 值 ) 那么 进行 字符 比较 的 次 数 将 是 InR 或 者 更 少 , 之 后 对 于 大 多 数字 符 也 只 需 进行 几 次 比较 ( 因 
为 指向 大 多 数 单词 查找 树 结 点 的 非 空 链接 的 分 布 十 分 稀 朴 ) 。 未 命中 的 查找 一 般 都 需要 若干 次 字符 
比较 并 结束 于 单词 查找 树 高 层 的 某 个 空 链接 。 在 命中 的 查找 中 ， 被 查找 的 键 中 的 每 个 字符 都 需要 并 
且 只 需要 一 次 比较 ， 因 为 它们 大 多 数 都 是 单词 查找 树 底部 的 单 向 分 支 上 的 结 点 。 
5.2.4.3 字母 表 

使 用 三 向 单词 查找 树 的 最 大 好 处 是 它 能 够 很 好 地 适应 实际 应 用 中 可 能 出 现 的 被 查找 键 的 不 规则 
性 。 需 要 特别 注意 到 的 是 ， 不 应 该 按照 用 例 提供 的 字母 表 构 造 字符 串 ， 这 对 于 单词 查找 树 很 关键 。 
这 主要 会 产生 两 点 影响 。 首 先 ， 实 际 应 用 中 的 键 都 来 自 于 大 型 字母 表 ， 而 且 字符 集中 的 各 个 字符 的 
使 用 是 非常 不 均衡 的 。 有 了 三 向 单词 查找 树 ， 我 们 可 以 使 用 256 个 字符 的 ASCII 编码 或 者 65 536 
个 字符 的 Unicode 编码 ， 而 不 必 担心 256 向 分 支 或 者 65 536 向 分 支 带 来 的 巨大 开销 ， 也 不 必 判断 哪 
些 才 是 相关 的 字符 集 。 非 罗马 字母 表 的 Unicode 字符 串 中 可 能 含有 上 千 种 字符 一 一 三 向 单词 查找 树 
特别 适合 于 可 能 含有 此 类 字符 的 Java 标准 String 类 型 的 键 。 其 次 ， 实 际 应 用 程序 中 的 键 常常 有 着 
类 似 的 结构 ， 这 在 不 同 的 应 用 之 中 可 能 不 同 。 键 的 一 部 分 可 能 只 会 使 用 字母 ， 而 另 一 部 分 可 能 只 会 
使 用 数字 。 在 加 利 福 尼 亚 州 的 车 牌号 的 例子 中 ， 第 二 、 三 、 四 个 字符 都 是 大 写字 母 (R-26 ) ， 而 其 
他 字符 都 是 数字 ( R=10 ) 。 在 这 种 键 构造 的 三 向 单词 查找 树 中 ， 一 部 分 结 点 会 被 表示 为 10 结 点 的 
二 又 查找 树 ( 键 的 数字 部 分 ) ， 另 一 部 分 结 点 会 被 表示 为 26 结 点 的 二 叉 查 找 树 ( 键 的 字母 部 分 ) 。 
这 种 结构 的 生成 是 自动 的 ， 无 需 对 键 进行 特别 分 析 。 
5.2.4.4 ”前 缀 匹配 、 查 找 所 有 键 和 通配符 匹配 

因为 三 向 单词 查找 树 也 是 单词 查找 树 ， 前 文中 单词 查找 树 的 longestPrefix0f()、keys CQ 、 
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keysWithPrefix() 和 keyThatMatch() 方法 的 实现 可 以 很 容易 移植 过 来 。 这 个 练习 能 够 加 深 你 对 
单词 查找 树 和 三 向 单词 查找 树 的 理解 ( 请 见 练习 5.2.9 ) 。 和 查找 操作 一 样 ， 这 里 也 存在 空间 和 时 间 
的 交换 ( 使 用 线性 级 别 的 内 存 空间 ， 但 每 个 字符 的 比较 次 数 需要 乘 以 InR ) 。 
5.2.4.5 ”删除 操作 

三 向 单词 查找 树 中 的 delete() 方法 要 更 复杂 一 些 。 从 本 质 上 来 说 ， 每 个 将 被 删除 的 字符 都 属 
于 一 棵 二 又 查找 树 。 在 单词 查找 树 中 ， 只 需 将 链接 数组 中 和 该 字符 对 应 的 元 素 置 为 空 即 可 删 去 它 的 
链接 。 在 三 向 单词 查找 树 中 ， 需 要 用 在 二 又 查找 树 中 删除 结 点 的 方法 来 删 去 与 该 字符 对 应 的 结 点 。 
5.2.4.6 ”混合 三 向 单词 查找 树 

简单 改进 一 下 基于 三 向 单词 查找 树 的 查找 方式 : 使 用 一 个 大 型 显 式 的 多 向 根 结 点 。 实 现 它 最 简 
单 的 办 法 就 是 维护 一 张 含 有 R 棵 三 向 单词 查找 树 的 表 : 每 一 棵 都 对 应 着 键 的 首 字母 的 一 种 可 能 的 值 。 
如 果 RR 不 大 ， 那 可 以 使 用 键 的 头 两 个 字母 ( 表 的 大 小 变 为 RR) 。 这 种 方法 有 效 的 前 提 是 键 的 首 字母 
的 分 布 必须 均匀 。 这 样 得 到 的 混合 查找 算法 和 人 们 在 电话 黄页 中 查找 姓名 的 行为 很 相似 。 查 找 的 第 
一 步 是 进行 多 向 判断 (“ 让 我 们 来 看 看 , 它 的 首 字母 是 “A””)， 接 下 来 可 能 是 某 种 双向 判断 (“ 它 
在 “Andrews” 之 前 , 但 在 “Aitken” 之 后 ”) ,然后 就 是 一 系列 字符 匹配 ( ““Algonquin，，，…… 
没有 ，“Algorithms” 不 在 列表 之 中 ， 因 为 没有 以 “Algor” 开 头 的 单词 ! ”) 。 这 些 程序 可 能 是 查 
找 字符 串 类 型 的 键 的 最 快 算法 。 
5.2.4.7 单 向 分 支 

和 单词 查找 树 一 样 ， 我 们 也 可 以 通过 将 键 的 尾 字母 变 为 叶子 结 点 并 在 内 部 结 点 中 消除 单 向 分 支 
来 提高 三 向 单词 查找 树 的 空间 利用 率 。 


命题 L。 由 NN 个 随机 字符 囊 构造 的 祖 结 点 进行 了 RR 向 分 支 且 不 含有 外 部 单 向 分 支 的 三 向 单词 查 
找 树 中 ， 一 次 插入 或 查找 操作 平均 需要 进行 约 InN-tlnR 次 字符 比较 。 


证 明 。 这 些 粗略 的 估计 也 可 以 由 命题 K 的 证 明 得 到 。 假 设 在 查找 路 径 上 除了 常数 个 结 点 (高 
层 的 几 个 ) 之 外 的 其 他 所 有 结 点 均 为 由 RR 个 字符 值 组 成 的 二 叉 查找 树 ， 因 此 需要 将 时 间 成 本 
乘 以 mnR。 


尽管 将 算法 调 优 至 最 佳 性 能 是 一 个 非常 大 的 诱惑 ， 我 们 不 应 该 忘记 三 向 单词 查找 树 最 吸引 人 的 
特点 ， 那 就 是 不 必 担心 对 特定 应 用 场景 的 依赖 ， 即 使 是 在 没有 调 优 的 情况 下 也 能 提供 不 错 的 性 能 。 


5.2.5 ”应 该 使 用 字符 串 符号 表 的 哪 种 实现 

和 字符 串 排序 一 样 ， 我 们 自然 也 想 对 比 一 下 已 经 学 习 过 的 字符 串 查找 方法 和 第 3 章 中 学 习 
的 通用 方法 。 表 5.2.3 总 结 了 已 讨论 过 的 各 种 算法 的 重要 性 质 ( 二 叉 查 找 树 、 红 黑 树 和 散 列 表 的 
条 目 来 自 第 3 章 ， 作 为 比较 之 用 ) 。 对 于 特定 的 应 用 场景 ， 这 些 条 目 有 指导 意义 ， 但 并 非 绝 对 
的 结论 ， 因 为 在 研究 符号 表 实现 的 过 程 中 发 现 许多 因素 ( 例如 键 的 性 质 和 混合 操作 的 顺序 ) 都 
会 产生 影响 。 

如 果 空间 足够 ，R 向 单词 查找 树 的 速度 是 最 快 的 ， 能 够 在 常数 次 字符 比较 内 完成 查找 。 对 于 大 
型 字母 表 ,有 向 单词 查找 树 所 需 的 空间 可 能 无 法 满足 时 , 三 向 单词 查找 树 是 最 佳 的 选择 , 因为 它 对 “ 字 
符 ” 比 较 次 数 是 对 数 级 别 的 比较 ， 而 二 又 查找 树 中 键 的 比较 次 数 是 对 数 级 别 的 。 散 列表 也 是 很 有 竞 
争 力 的 ,但 如 前 文 所 述 ， 它 不 支持 有 序 性 的 符号 表 操作 ， 也 不 支持 扩展 的 字符 类 API 操作 ， 例 如 前 
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缀 或 通配符 匹配 。 
表 5.2.3 各 种 字符 串 查找 算法 的 性 能 特点 
处 理由 大 小 为 R 的 字母 表 构 造 的 N 个 字符 串 
算法 〈 数 据 结构 ) (平均 长 度 为 w) 的 增长 数量 级 优 点 
未 命中 查找 检查 的 字符 数量 内 存 使 用 
-又 树 查找 (BST) colleNy 64N 适用 于 随机 排列 的 键 
2-3 树 查找 ( 红 黑 树 ) cgN 64N 有 性 能 保证 
线性 探测 法 ( 并 行 数组 ) w 32N~128N 内 置 类 型 
缓存 散 列 值 
字典 树 查找 ( R 向 单词 查找 树 ) logaN (8R+56)N~(8R+56) | 适用 于 较 短 的 键 和 较 小 的 
Nw 字母 表 
字典 树 查找 ( 三 向 单词 查找 树 ) 1.39lgN 64N-64Nw 适用 于 非 随 机 的 键 











图 答 经 


问 Java 的 系统 排序 方法 使 用 了 本 节 介 绍 的 方法 来 查找 String 类 型 的 键 吗 ? 
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5.2.1 


答 没有 。 


图 练习 


将 以 下 键 按照 顺序 插 人 一 棵 R 向 空 单词 查找 树 之 中 并 夯 出 结果 ( 忽略 空 链接 ) : no is th ti 
fo al go pe to co to th ai of th pa。 

将 以 下 键 按 照 顺 序 插入 一 棵 空 三 向 单词 查找 树 之 中 并 画 出 结果 ( 忽略 空 链接 ) : no is th ti fo 
al go pe to co to th ai of th pa。 

将 以 下 键 按照 顺序 插入 一 棵 R 向 空 单词 查找 树 之 中 并 画 出 结果 ( 忽略 空 链接 ) : now is the 
time for all good people to come to the aid of。 

将 以 下 键 按照 顺序 插入 一 棵 空 三 向 单词 查找 树 之 中 并 画 出 结果 ( 忽略 空 链接 ) : now is the 
time for all good people to come to the aid of。 

给 出 非 递归 版 本 的 TrieST 和 TST。 

对 于 StringSET 数据 类 型 ， 实 现 以 下 API， 如 表 5.2.4 所 示 。 


表 5.2.4 字符 串 集合 的 数据 类 型 的 API 





public class StringSET 





StringSETO 创建 一 个 字符 串 的 集合 
void add(String key) 将 key 添加 到 集合 中 
void delete(String key) 从 集合 中 删除 key 
boolean contains(String key) key 是 否 存在 于 集合 中 
boolean isEmpty() 集合 是 否 为 空 
int sizeO 集合 中 的 键 的 数量 


String toStringO) 对 象 的 字符 串 表示 
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图 提高 到 


5.2.7 


5.2.8 


5.2.9 


5.2.10 


5.2.11 


5.2.12 


5.2.13 


5.2.14 


5.2.15 


5.2.16 


5.2.17 


5.2.18 
5.2.19 
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5.2.21 


5.2.22 


三 向 单词 查找 树 中 的 空 字符 囊 。 三 向 单词 查找 树 ( TST ) 的 代码 未 能 正确 处 理 空 字符 串 。 说 明 原 
因 并 给 出 修正 方案 。 
单词 查找 树 的 有 序 性 操作 。 为 TrieST 实 现 floor()、ceiling()、rank() 和 select() 方法 (来 
自 第 3 章 标 准 有 序 性 符号 表 的 API) 。 
三 向 单词 查找 树 的 扩展 操作 。 为 三 向 单词 查找 树 实现 keys() 和 本 节 所 介绍 的 几 种 扩展 操作 : 
TongestprefixOf () 、keysWithPrefix() 和 keysThatMatch() 
size0 方法 。 为 TrieST 和 TST 实现 最 为 即时 的 size() 方法 ( 在 每 个 结 点 中 保存 子 树 中 的 键 
的 总 数 ) 。 
外 部 单项 分 支 。 为 TrieST 和 TST 添加 消除 外 部 单 向 分 支 的 代码 。 
内 部 单项 分 支 。 为 TrieST 和 TST 添加 消除 内 部 单 向 分 支 的 代码 。 
尼 向 分 支 的 根 结 点 的 三 向 单词 查找 树 。 如 正文 所 述 ， 为 TST 添加 代码 ， 在 前 两 层 结 点 中 实现 多 
向 分 支 。 
长 度 为 上 的 唯一 子 字符 囊 。 编 写 一 个 TST 的 用 例 ， 从 标准 输入 读 取 文本 并 计算 其 中 长 度 为 工 的 
唯一 子 字符 串 的 数量 。 例 如 ， 如 果 输 入 为 cgcgggcgcg， 那么 长 度 为 3 的 唯一 子 字符 串 就 有 5 个 : 
cgc、cgg、gcg、ggc 和 999。 提 示 : 使 用 字符 串 方法 substring(i,i+L) 来 提取 第 i 个 子 字符 
串 并 将 它 插入 到 一 张 符号 表 中 。 
唯一 子 字符 事 。 编 写 一 个 TST 的 用 例 ， 从 标准 输入 读 取 文本 并 计算 其 中 任意 长 度 的 唯一 子 字符 
串 的 数量 。 后 级 树 能 够 高 效 完成 这 个 任务 一 一 请 见 第 6 章 。 
文档 的 相似 性 。 编 写 一 个 TST 的 静态 方法 用 例 ， 接 受 一 个 int 值 L 和 两 个 文件 名 作为 命令 行 参 
数 并 计算 两 份 文档 的 “L- 相似 性 ”: 各 个 频率 向 量 之 间 的 欧 拉 距 离 ， 其 中 频率 向 量 为 各 个 长 度 
为 3 的 子 字符 串 (trigram ) 的 出 现 次 数 除 以 所 有 长 度 为 3 的 子 字符 串 的 总 数 。 给 出 一 个 静态 方 
法 main(C)， 接 受 一 个 int 值 上 作为 命令 行 参 数 ， 从 标准 输入 中 获取 一 系列 文件 名 并 打印 出 一 个 
矩阵 ， 以 显示 所 有 文档 之 间 的 L- 相似 性 。 
拼写 检查 。 编 写 一 个 TST 的 用 例 Spe11Checker， 从 命令 行 接受 一 个 英语 字典 文件 作为 参数 ， 然 
后 从 标准 输入 读 取 一 个 字符 串 并 打印 所 有 不 在 字典 中 的 单词 。 请 使 用 字符 串 集合 数据 类 型 。 
白 名单 。 编 写 一 个 TST 的 用 例 , 解 决 1.1 节 和 3.5 节 中 介绍 并 讨论 过 的 ( 请 见 3.5.2.2 节 ) 白 名 单 问题 。 
随机 电话 号 码 。 编 写 一 个 TrieST 的 用 例 ( R=10 ) ， 从 命令 行 接受 一 个 int 值 N 并 打印 出 N 个 
形 如 (xxx) xxx-xxxx 的 随机 电话 号 码 。 使 用 符号 表 避 免 出 现 重复 的 号 码 。 使 用 本 书 网 站 上 的 
AreaCodes.txt 来 避免 打印 出 不 存在 的 区 号 。 
是 否 含有 前 缓 。 为 StringSET 类 ( 请 见 练习 5246 ) 添加 一 个 方法 containsPrefixO ， 接 受 一 个 字符 
串 s 作为 输入 ， 如 果 集 合 中 存在 某 个 以 s 作为 前 级 的 字符 串 时 返回 true。 
子 字符 串 匹配 。 给 定 一 列 ( 短 ) 字 符 串 ,你 的 任务 是 找到 所 有 含有 用 户 所 寻找 的 字符 申 s 的 字符 串 。 
为 此 任务 设计 一 份 API 并 给 出 一 个 TST 用例 来 实现 这 个 API。 提示: 将 每 个 单词 的 所 有 后 级 ( 例 
如 : string, tring, ring， ing, ng, 9 ) 插入 到 TST 中 。 
打字 的 猴子 。 假 设 有 一 只 会 打字 的 猴子 ， 它 打出 每 个 字母 的 概率 为 p， 结 束 一 个 单词 的 概率 为 
1-26p。 编 写 一 个 程序 ， 计 算 产生 各 种 长 度 的 单词 的 概率 分 布 。 其 中 如 果 "abe" 出 现 了 多 次 ， 只 
计算 一 次 。 
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图 实验 到 


5.2.23 


5.2.24 


5.2.25 


5.2.26 














重复 元 素 (再 续 ) 。 使 用 StringSET ( 请 见 练习 5.2.6 ) 代替 HashSET 重新 完成 练习 3.5.30， 比 
较 两 种 方法 的 运行 时 间 。 然 后 使 用 dedup 为 N=10"、10* 和 10? 运行 实验 ， 用 随机 1ong 型 字符 串 
重复 实验 并 讨论 结果 。 

拼写 检查 器 。 使 用 本 书 网 站 上 的 dictionary.txt 文件 和 3.5.2.2 节 中 的 BlackFi1ter 用 例 重新 完成 
练习 3.5.31 并 打印 出 一 个 文本 文件 中 所 有 拼 错 的 单词 。 用 该 用 例 处 理 wartxt 文件 ， 比 较 TrieST 
和 TST 的 性 能 并 讨论 结果 。 

字典 。 重 新 完成 练习 3.5.32: 在 一 个 需要 高 性 能 的 场景 中 研究 一 个 类 似 于 LookupCSV 的 用 例 的 
性 能 (使 用 TrieST 和 TST ) 。 确 切 地 说 ， 设 计 一 个 查询 生成 器 来 取代 从 标准 输入 接受 命令 ， 对 
大 量 输入 和 大 量 查 询 进行 性 能 测试 。 

索引 。 重 新 完成 练习 3.5.33: 在 一 个 需要 高 性 能 的 场景 中 研究 一 个 类 似 于 LookupIndex 的 用 例 
的 性 能 (使 用 TrieST 和 TST ) 。 确 切 地 说 ， 设 计 一 个 查询 生成 器 来 取代 从 标准 输入 接受 命令 ， 
对 大 量 输入 和 大 量 查 询 进行 性 能 测试 。 
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5.3 ， 子 字符 串 查 找 


字符 串 的 一 种 基本 操作 就 是 子 字符 事 查 找 : 给 定 一 段 长 度 为 N 的 文本 和 一 个 长 度 为 M 的 模式 

(pattem ) 字符 串 ， 在 文本 中 找到 一 个 和 该 模式 相符 的 子 字 符 串 请 见 图 53.1。 解 决 该 问题 的 大 部 分 算 

法 都 可 以 很 容易 地 扩展 为 找 出 文本 中 所 有 和 该 模式 相符 的 子 字 符 串 、 统 计 该 模式 在 文本 中 的 出 现 次 数 、 
或 者 找 出 上 下 文 (和 该 模式 相符 的 子 字符 串 周围 的 文字 ) 的 算法 。 


横 式 一 WE EDL 和 EE 
正文 一 IT N AHAYSTACKNE EDLEINA 


匹配 
5.3.1 子 字符 串 的 查找 


当 你 在 文本 编辑 器 或 是 浏览 器 中 查找 某 个 单词 时 ， 就 是 在 查找 子 字符 串 。 事 实 上 ， 该 问题 的 原 
始 动机 就 是 为 了 支持 这 种 查找 操作 。 字 符 串 查找 的 另 一 个 经 典 应 用 是 在 截获 的 通信 内 容 中 寻找 某 种 
重要 的 模式 。 一 位 军队 将 领 感 兴趣 的 可 能 是 在 截获 的 文本 中 寻找 和 “拂晓 进攻 ”类 似 的 字句 。 一 名 
黑客 感 兴趣 的 可 能 是 在 内 存 中 查找 与 “Password:” 相 关 的 内 容 。 在 今天 的 世界 中 ， 我 们 经 常 在 互联 
网 的 海量 信息 中 查找 字符 串 。 

为 了 更 好 地 理解 算法 ， 请 记 住 模式 相对 于 文本 是 很 短 的 ( M 可 能 等 于 100 或 者 1000 ) ， 而 文 
本 相对 于 模式 是 很 长 的 (N 可 能 等 于 100 万 或 者 10 亿 ) 。 在 字符 串 查 找 中 ， 一 般 会 对 模式 进行 预 
处 理 来 支持 在 文本 中 的 快速 查找 。 

字符 串 查找 是 一 个 很 有 趣 而 且 也 很 经 典 的 问题 : 人 们 发 明了 几 个 截然 不 同 ( 且 令 人 惊讶 的 ) 算 
法 ， 它 们 不 仅 产生 了 一 系列 能 够 实际 应 用 的 查找 方法 ， 而 且 也 展示 了 许多 重要 的 算法 设计 技巧 。 


5.3.1 历史 简介 

我 们 将 要 学 习 的 几 种 算法 有 一 段 有 趣 的 历史 。 我 们 在 这 里 进行 总 结 并 帮助 大 家 对 它们 的 地 位 有 
一 个 正确 的 认识 。 

子 字符 串 查找 有 一 个 简单 而 使 用 广泛 的 暴力 算法 。 虽 然 它 在 最 坏 情况 下 的 运行 时 间 与 MN 成正 
比 ,但 是 在 处 理 许多 应 用 程序 中 的 字符 串 时 ( 除了 一 些 变态 的 情况 之 外 ) ， 它 的 实际 运行 时 间 一 般 
与 M+ N 成 正比 。 另 外 ， 它 很 好 地 利用 了 大 多 数 计算 机 系统 中 标准 的 结构 特性 ， 因 此 即使 是 更 加 巧 
妙 的 算法 也 很 难 超越 它 经 过 优化 后 的 版 本 的 性 能 。 

在 1970 年 ，S.Cook 在 理论 上 证 明了 一 个 关于 某 种 特定 类 型 的 抽象 计算 机 的 结论 。 这 个 结论 暗 
示 了 一 种 在 最 坏 情 况 下 用 时 也 只 是 与 M+ N 成 正比 的 解决 子 字符 串 查找 问题 的 算法 。D.E.Knuth 和 
VR.Pratt 改进 了 Cook 用 来 证 明定 理 的 框架 ( 并 非 为 实际 应 用 所 设计 ) 并 将 它 提炼 为 一 个 相对 简单 
而 实用 的 算法 。 这 看 起 来 是 一 个 鲜 有 但 令 人 满意 的 将 理论 结果 ( 意外 的 ) 立 刻 转化 为 实际 应 用 的 例子 。 
但 实际 上 ，J.H.Morris 在 实现 一 个 文本 编辑 器 时 ， 为 了 解决 某 个 或 手 的 问题 ( 他 希望 能 够 在 文本 中 
避免 “ 回 退 ”) 也 发 明了 几乎 相同 的 算法 。 殊 途 同 归 的 两 种 方式 得 到 了 同一 种 算法 ， 这 说 明 它 是 这 
个 问题 的 一 种 基础 的 解决 方案 。 

Knuth、Morris 和 Pratt 直到 1976 年 才 发 表 了 他 们 的 算法 。 在 这 段 时 间 里 ，R.S.Boyer 和 JS.Moore 
(以 及 R.WiGosper 独立 地 ) 发 明了 一 种 在 许多 应 用 程序 中 都 非常 快 的 算法 ， 该 算法 一 般 只 会 检查 文 
本 字符 串 中 的 一 部 分 字符 。 许 多 文本 编辑 器 都 使 用 了 这 个 算法 ， 以 显著 降低 字符 串 查 找 的 响应 时 间 。 
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Knuth-Morris-Pratt 算法 和 Boyer-Moore 算法 都 需要 对 模式 字符 串 进行 复杂 的 预 处 理 ， 这 个 过 程 
+ 分 隆 涩 而 且 也 限制 了 它们 的 应 用 范围 。 ( 事实 上 ， 有 位 系统 程序 员 觉得 Morris 算法 实在 是 太 难 懂 
了 ， 就 干脆 用 暴力 算法 代替 了 。 ) 

在 1980 年 ，M.O.Rabin 和 RM.Karp 使 用 散 列 开发 出 了 一 种 与 暴力 算法 几乎 一 样 简单 但 运行 时 
间 与 M+N 成 正比 的 概率 极 高 的 算法 。 另 外 ， 它们 的 算法 还 可 以 扩展 到 二 维 的 模式 和 文本 中 ， 这 使 
得 它 比 其 他 算法 更 适用 于 图 像 处 理 。 

这 段 历史 说 明 人 们 在 不 断 地 研究 更 好 的 算法 。 事 实 上 大 家 都 认为 ， 这 个 经 典 问 题 还 将 会 有 很 大 
的 发 展 。 


5.3.2 ”暴力 子 字符 串 查找 算法 
子 字符 串 查找 的 一 个 最 显而易见 的 方法 就 是 在 文本 中 模式 可 能 出 现 匹 配 的 任何 地 方 检查 匹配 是 


否 存 在 。 如 左 侧 框 注 所 示 的 search() 方法 就 是 在 文本 字符 串 txt 中 查找 模式 字符 串 pat 第 一 次 出 现 
的 位 置 。 这 段 程序 使 用 了 一 个 指 


public static int search(String pat, String txt) 针 i 跟 踪 文 本 ， 一 个 指针 j 跟 踪 
{ a 模式 。 对 于 每 个 1， 代码 首先 将 j 

nt M = pat. ; Es 
int N= Remedih 重 置 为 0 并 不 断 将 它 增 大 ， 直 至 
for (int 1 = 0; 1 <= N ~- M; i++) 找到 了 一 个 不 匹配 的 字符 或 是 模 
人 式 结束 (j=-M) 为 上 请 见 图 53.2。 
for (j = 0; j < M; j++) My 如 果 在 模式 字符 串 结束 之 前 文本 

if Sree 1= pat. charAt(j)) 字符 申 就 已 经 结束 了 (i 一 N-M+l)， 
证 (j == MD return i; // 找到 匹配 那么 就 没有 找到 匹配 : 模式 字符 
i 7 i 串 在 文本 中 不 存在 。 我 们 约定 在 

1 不 匹配 时 返回 N 的 值 。 

暴力 子 字 符 申 查找 在 典型 的 字符 串 处 理应 用 程 


序 中 ,索引 j 增长 的 机 会 很 少 ， 
因此 该 算法 的 运行 时 间 与 N 成 正比 。 绝 大 多 数 比 较 在 比较 第 一 个 字符 时 就 会 产生 不 匹配 。 例 如 ， 
假设 你 在 这 一 段 文字 之 中 查找 pattern 这 个 模式 字符 串 。 在 找到 模式 字符 串 的 第 一 次 匹配 之 前 共有 
191 个 单词 ， 其 中 只 有 7 个 的 首 字母 是 pP ( 且 没有 以 pa 开头 的 单词 ) 。 因 此 字符 比较 的 总 次 数 为 
191+7， 也 就 是 说 文本 中 每 个 字符 平均 需要 比较 1.036 次 。 从 另 一 个 方面 来 说 ， 没 人 能 够 保证 算法 
总 是 如 此 高 效 。 例 如 ， 模 式 字符 串 可 能 以 一 连 串 的 A 开头 。 如 果 是 这 样 且 文本 也 包含 含有 一 大 串 A 
的 字符 串 ， 那 么 字符 串 的 查找 就 可 能 会 很 慢 。 


命题 M。 在 最 坏 情况 下 ， 暴 力 子 字符 囊 查 找 算法 在 长 度 为 N 的 文本 中 查找 长 度 为 M 的 模式 需 
要 ~NM 次 字符 比较 ， 请 见 图 5.3.3。 


证 明 。 一 种 最 坏 的 情况 是 文本 和 模式 都 是 一 连 串 的 A 接 一 个 B。 那 么 ， 对 于 N-MH+1 个 可 能 的 
匹配 位 置 ， 模 式 中 的 所 有 字符 都 需要 和 文本 比 对 ， 总 成 本 为 MUN-M+H1)。 一 般 来 说 M 远 小 于 N， 
因此 总 成 本 为 ~NM。 
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i jijolz2z345678 910 
txt 一 -A B ACAD A B R A C 
0 2 2 ABR -pat 
1 0 A 和 的 
| 洁 AB 表示 匹配 
3 2 
/ 有 待 开 配 
4 5 A B 
5 0 5 RebF 帮 人 A 
和 文本 匹配 
6、 4 10 A B RA 
当 j 和 村 相等 时 返回 f 
匹配 成 功 


图 5.3.2 ”暴力 子 字符 串 查找 ( 另 见 彩 插 ) 


这 种 奇怪 的 字符 串 不 太 可 能 出 现在 英文 文本 之 中 ,但 在 其 他 应 用 场景 中 是 完全 可 能 的 ( 例如 二 
进 制 文 本 ) ， 因 此 我 们 需要 更 好 的 算法 。 





i jiij ol23456789 
txt—A AAAAAAAA B 

0 4 4 AAAA Bpat 

0 AAAAB 

2 4 6 AAAAB 

Ee AAAAB 

4 4 8 AAAAB 

5 5 10 A AAAB 





图 53.3 暴力 子 字符 串 查 找 (最 坏 情况 ) 


下 方 框 注 所 示 的 该 算法 的 另 一 种 实现 是 有 指导 意义 的 。 和 以 前 一 样 ， 程 序 使 用 了 一 个 指针 i 跟 
踪 文本 ， 一 个 指针 j 跟踪 模式 。 在 i 和 j 指向 的 字符 相 匹配 时 ， 代 码 进行 的 字符 比较 和 上 一 个 实现 
相同 。 请 注意 ， 这 段 代 码 中 的 值 相 当 于 上 一 段 代码 中 的 i+j: 它 指向 的 是 文本 中 已 经 匹配 过 的 字 
符 序列 的 末端 (i 以 前 指向 的 是 这 个 序列 的 开头 ) 。 如 果 i 和 j 指向 的 字符 不 匹配 了 ， 那 么 需要 回 
退 这 两 个 指针 的 值 : 将 j 重新 指向 模式 的 开头 ,将 i 指向 本 次 匹配 的 开始 位 置 的 下 一 个 字符 。 


public static int search(String pat, String txt) 


int j, M = pat.lengthO; 

int 1, N = txt.length(); 

for (i =0,j=0;i<Nej <M; it) 
{ 


if (txt.charAt(i) == pat.charAt(j)) j++; 
else {1 -=j;j=0; 


了 
if (j == M) return ji - M; // 找到 匹配 
else return N; // 未 找到 匹配 





暴力 子 字符 匹配 算法 的 另 一 种 实现 ( 显 式 回 退 ) 761 
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5.3.3 ”Knuth-Morris-Pratt 子 字符 串 查找 算法 

Knuth .Morris 和 Pratt 发 明 的 算法 的 基本 思想 是 当 出 现 不 匹配 时 ,就 能 知晓 一 部 分 文本 的 内 容 ( 因 
为 在 匹配 失败 之 前 它们 已 经 和 模式 相 匹配 ) 。 我 们 可 以 利用 这 些 信息 避免 将 指针 回 退 到 所 有 这 些 已 
知 的 字符 之 前 。 

举 一 个 具体 的 例子 。 假 设 字母 表 中 只 有 两 个 字符 ， 查 找 的 模式 字符 申 为 B AAA AAAAA 
A 。 现 在 ,假设 已 经 匹配 了 模式 中 的 5 个 字符 ， 第 6 个 字符 匹配 失败 。 当 发 现 不 匹配 的 字符 时 ， 可 
以 知道 文本 中 的 前 6 个 字符 肯定 是 B A A A A B (前 5 个 匹配 , 第 6 个 失败 ) ， 文 本 指针 现在 指向 
的 是 末尾 的 字符 B。 你 可 以 观察 到 ,这 里 不 需要 回 退 文本 指针 i， 因为 正文 中 的 前 4 个 字符 都 是 A， 
均 与 模式 的 第 一 个 字符 不 匹配 。 另 外 ，i 当前 指向 的 字符 B 和 模式 的 第 一 个 字符 相 匹配 ， 所 以 可 以 
直接 将 1 加 1， 以 比较 文本 中 的 下 一 个 字符 和 模式 中 的 第 二 个 字符 。 这 说 明 ， 对 于 这 个 模式 ， 可 以 
将 暴力 子 字符 串 查找 算法 实现 中 的 else 语句 替换 为 j=1 ( 且 并 不 将 1 加 1) 。 因 为 循环 中 i 的 值 
并 未 变化 ， 这 种 方法 最 多 只 会 进行 N 次 字符 比较 。 这 次 特殊 变化 的 实际 影响 仅 限于 这 种 特殊 情况 ， 
但 这 种 想法 是 值得 思考 的 一 一 Knuth-Morris-Pratt 算法 正 是 这 种 情况 的 一 般 化 。 令 人 惊讶 的 是 ， 在 匹 
配 失败 时 总 是 能 够 将 j 设 为 某 个 值 以 使 不 回 退 ， 请 见 图 5.3.4。 

在 匹配 失败 时 ， 如 果 模式 字符 串 中 的 某 处 可 以 和 匹配 失败 处 的 正文 相 匹配 ， 那 么 就 不 应 该 完全 
跳 过 所 有 已 经 匹配 的 所 有 字符 。 例 如 ， 当 在 文本 A A B A A B A A A A 中 查找 模式 AA BAAA 
时 ,我们 首先 会 在 模式 的 第 5 个 字符 处 发 现 匹配 失败 ， 但 是 应 该 在 第 3 个 字符 处 继续 查找 ， 否 则 就 
会 错过 已 经 匹配 的 部 分 。KMP 算法 的 主要 思想 是 提前 判断 如 何 重新 开始 查找 ， 而 这 种 判断 只 取决 
于 模式 本 身 。 





AAAAAAAANA 
-一 模式 字符 串 


了 本 二 二 





暴力 子 字符 申 查 一 -BB 


找 算法 会 回 退 这 B 
里 并 重新 党 斌 再 研一 _B 
HR _B 
a 
RB AAAAAAAAA 
再 试 
人 AAA 
需要 回 退 


图 5.3.4 文本 字符 串 的 指针 在 子 字符 串 查 找 中 的 回 退 


5.3.3.1 模式 指针 的 回 退 

在 KMP 子 字符 串 查找 算法 中 ， 不 会 回 退 文本 指针 ij， 而 是 使 用 一 个 数组 dfa[] [] 来 记录 匹配 
失败 时 模式 指针 j 应 该 回 退 多 远 。 对 于 每 个 字符 c, 在 比较 了 c 和 pat.charAt(j) 之 后 , dfa[c][j] 
表示 的 是 应 该 和 下 个 文本 字符 比较 的 模式 字符 的 位 置 。 在 查找 中 ，dfs[txt.charAt(i)] [j] 是 在 
比较 了 txt.charAt(i) 和 pat.charAt(j) 之 后 应 该 和 txt.charAt(i+1) 比较 的 模式 字符 位 置 。 
在 匹配 时 会 继续 比较 下 一 个 字符 ， 因 此 dfa[pat.charAt(j)] [j] 总 是 j+1。 在 不 匹配 时 ,不 仅 可 
以 知道 txt.charAt(i) 的 字符 ， 也 可 以 知道 正文 中 的 前 j-1 个 字符 。 它 们 就 是 模式 中 的 前 j-1 个 
字符 。 对 于 每 个 字符 c， 你 可 以 将 这 个 过 程 想 象 为 首先 将 模式 字符 串 的 一 个 副本 覆盖 在 这 j 个 字符 


之 上 (模式 中 的 前 j-1 个 字符 以 及 字 
符 c 一 一 需要 判断 的 是 当 这 些 字符 就 是 
txt.charAt(i-j+1..i) 时 应 该 怎么 
办 ) ， 然 后 从 左 向 右 滑动 这 个 副本 直到 
所 有 重 全 的 字符 都 相互 匹配 ( 或 者 没有 
相 匹 配 的 字符 ) 时 才 停 下 来 。 这 将 指明 
模式 字符 串 中 可 能 产生 匹配 的 下 一 个 
位 置 。 和 txt.charAt(i+1) (dfa[txt. 
charAt(i)] [j]) 比较 的 模式 字符 的 索 
引 正 是 重 全 字符 的 数量 , 请 见 图 5.3.5。 
5.3.3.2 KMP 查找 算法 

只 要 计算 出 了 dfa[][] 数组 ， 就 
得 到 了 后 面 框 注 所 示 的 子 字符 串 查找 算 
法 : 当 i 和 j 所 指向 的 字符 匹配 失败 时 
(从 文本 的 i-j+l 处 开始 检查 模式 的 
匹配 情况 ) ， 模 式 可 能 匹配 的 下 一 个 位 
置 应 该 从 i-dfa[txt.charAt(i)] [j] 
处 开始 。 按 照 算法 ， 从 该 位 置 开 始 的 
dfa[txt.charAt(i)] [j] 个 字符 和 模 
式 的 前 dfa[txt.charAt(i)][j] 个 字 
符 应 该 相同 ， 因 此 无 需 回 退 指针 1， 只 
需要 将 j 设 为 dfa[txt,.charAt(i)][j] 
并 将 1 加 1 即 可 ， 这 正 是 当 i 和 j 所 
指向 的 字符 匹配 时 的 行为 。 
5.3.3.3 ”DFA 模拟 

说 明 这 个 过 程 的 一 种 较 好 的 方法 
是 使 用 确定 有 限 状 态 自动 机 ( DFA ) 。 
事实 上 ， 由 它 的 名 字 你 也 可 以 看 出 ， 
dfa[] [] 数组 定义 的 正 是 一 个 确定 有 限 
状态 自动 机 。 图 5.3.6 显示 确定 有 限 状 
态 自动 机 是 由 状态 (数字 标记 的 圆圈 ) 
和 转换 ( 带 标签 的 箭头 ) 组 成 的 。 模 式 
中 的 每 个 字符 都 对 应 着 一 个 状态 ， 每 个 
此 类 状态 能 够 转换 为 字母 表 中 的 任意 字 
符 。 对 于 子 字符 串 查找 问题 ， 在 我 们 所 
考虑 的 DFA 中 ， 这 些 转换 中 只 有 一 条 
是 匹配 转换 ( 从 j 到 j+1， 标 签 为 pat . 
charAt(j) ), 其 他 的 都 是 非 匹 配 转换 ( 指 
向 左 侧 ) 。 所 有 状态 都 和 字符 的 比较 相 
对 应 ， 每 个 状态 都 表示 一 个 模式 字符 串 





j pat.charAt(j) dfa[][j] 
A B C 
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文本 (也 是 模式 本 身 ) 
ABABAC 





0 


匹配 (继续 检查 下 一 个 
字符 ) ， 将 dfa[pat , 


A 


1 


charAt(Jj) [j] 设 为 j+1 


5 


C 


1 
匹配 失败 Va 4 


(模式 指针 回 退 ) 


匹配 失败 时 


回 退 的 距离 是 已 知 文本 字 
符 和 模式 的 最 大 重 双 长 度 


图 5.3.5 KMP 子 字符 串 查找 算法 在 处 理 A B A B A 
5 时 模式 指针 的 回 退 


public int search(String txt) 

// 模拟 DFA 处 理 文本 txt 时 的 操作 

int i, j, N= txt.lengthO); 

for (i =0,j=0;i<Nej <M; it) 
j = dfa[txt.charAt(i)][j]; 

放 (j 一 M) return i- M; // 找到 匹配 


else 


return N; 


// 未 找到 匹配 


KMP 子 字符 串 查找 算法 (DFA 模 拟 ) 
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内 部 表示 的 索引 值 。 当 我 们 在 标记 为 了 的 状 
De 0 态 中 检查 文本 中 的 第 i 个 字符 时 ， 
Re OAL T1315 1 自动 机 的 行为 是 这 样 的 ，“ 沿 着 转 
dfal][j]lB 0 2 fs 0 4 换 dfa[txt.charAt(i)] [j] 前 进 并 
人 的 继续 检查 下 一 个 字符 (将 1 加 1) 。” 


对 于 一 个 匹配 的 转换 ， 就 向 右 移动 
一 位 ， 因 为 dfa[txt.charAt(i)] 
Dj] 的 值 总 是 j+1; 对 于 一 个 非 匹配 
转换 ， 就 在 向 左 移动 。 自 动机 每 次 
从 左 向 右 从 文本 中 读 取 一 个 字符 并 
移动 到 一 个 新 的 状态 。 我 们 还 包含 
了 一 个 不 会 进行 任何 转换 的 停止 状 
态 M。 自动 机 从 状态 0 开始 : 如 果 
自动 机 到 达 了 状态 M， 那 么 就 在 文 
图 5.3.6 和 模式 字符 电 A BA BA C 对 应 的 确定 有 限 状 态 自 本 中 找到 了 和 模式 相 匹 配 的 一 段子 

ee 字符 串 (我 们 称 这 种 情况 为 确定 有 
限 状 态 自动 机 识别 了 该 模式 ) ;如 果 自 动机 在 文本 结束 时 都 未 能 到 达 状 态 NM， 那么 就 可 以 知道 文本 中 











763| ”不 存在 匹配 该 模式 的 子 字符 串 。 每 个 模式 字符 串 都 对 应 着 一 个 自动 机 ( 由 保存 了 所 有 转换 的 dfa[] [] 
764| ”数组 表示 ) 。KMP 的 字符 串 查找 方法 search( 只 是 一 段 模拟 自动 机 运行 的 Java 程序 。 











01234 
读 取 这 些 字符 一 B C B A AB 
当前 状态 一 0 ,0 0 0 11 
转换 到 该 惟 态 AAA“ 


8 910 1112 13 14 15 16 -一 i 
AABAB AKCACA- 一 txt'charAtGi) 
本 了 本 二 党 


N >P 
w mn 


A 字符 串 匹 配 ， 
返 加 -~ M= 9 


A 
B 
字符 匹配 ， 将 j 设 为 A 
dfa[txt.charAt(i)][j] B 


=dfa[pat.charAt(j)][j] 
=j+1 
A 
字符 不 下 配 ， 将 j 设 为 3 


dfa[txt.charAt(i)][j] A 
意味 着 将 相左 称 并 将 1 c 
Boe arAt(j) 和 txt. charAt (i+1) dc 


图 5.3.7 KMP 子 字符 串 查 找 算法 处 理 A B A B A C 时 的 轨迹 (DFA 模拟 ) 


要 体验 在 DFA 中 的 子 字符 串 查 找 操作 ， 你 可 以 先 想象 一 下 它 所 完成 的 两 件 最 简单 的 任务 。 在 
查找 过 程 的 开始 ， 从 文本 的 开头 进行 查找 ， 起 始 状态 为 0。 它 停留 在 0 状态 并 扫描 文本 ， 直 到 找到 


5.3 子 字符 串 查 找 本 499 


一 个 和 模式 的 首 字母 相同 的 字符 。 这 时 它 移动 到 下 一 个 状态 并 开始 运行 。 在 这 个 过 程 的 最 后 ， 当 它 
找到 一 个 匹配 时 ， 它 会 不 断 地 匹配 模式 中 的 字符 与 文本 ， 自 动机 的 状态 会 不 断 前 进 直到 状态 M。 图 
5.3.7 所 示 的 轨迹 给 出 了 DFA 运行 的 一 个 典型 例子 。 每 次 匹配 都 会 将 DFA 带 向 下 一 个 状态 (等 价 于 
增 大 模式 字符 串 的 指针 j ) ; 每 次 匹配 失败 都 会 使 DFA 回 到 较 早 前 的 状态 ( 等 价 于 将 模式 字符 串 的 
指针 j 变 为 一 个 较 小 的 值 ) 。 正 文 指针 是 从 左 向 右前 进 的 ， 一 次 一 个 字符 ， 但 索引 j 会 在 DFA 
的 指导 下 在 模式 字符 串 中 左右 移动 。 
5.3.3.4 构造 DFA 

现在 你 应 该 已 经 明白 了 DFA 的 原理 ， 接 下 来 解决 KMP 算法 的 关键 问题 ， 如 何 计算 给 定 模式 相 
对 应 的 dfa[] [] 数组 ”意外 的 是 ， 这 个 问题 的 答案 仍然 是 DFA 本 身 ! Knuth、Morris 和 Pratt 发 明 
了 这 种 巧妙 ( 但 也 相当 复杂 ) 的 构造 方式 。 当 在 pat.charAt(j) 处 匹配 失败 时 ， 希 望 了 解 的 是 ， 
如 果 回 退 了 文本 指针 并 在 右 移 一 位 之 后 重新 扫描 已 知 的 文本 字符 ，DFA 的 状态 会 是 什么 ? 我 们 其 实 
并 不 想 回 退 ， 只 是 想 将 DFA 重 置 到 适当 的 状态 ， 就 好 像 已 经 回 退 过 文本 指针 一 样 。 765 

这 里 的 关键 在 于 需要 重新 扫描 的 文本 字符 正 是 pat. 1 

















charAt(1) 到 pat.charAt(j-1) 之 间 ， 忽 略 了 首 字母 是 因为 0 
模式 需要 右 移 一 位 ， 忽 略 了 最 后 一 个 字符 是 因为 匹配 失败 。 这 2 B 
些 模式 中 的 字符 都 是 已 知 的 ， 因 此 对 于 每 个 可 能 匹配 失败 的 位 0 
置 都 可 以 预先 找到 重启 DFA 的 正确 状态 。 图 5.3.8 显示 了 示例 。 3 B 
中 的 各 种 可 能 性 。 请 务必 理解 这 个 概念 。 M 

DFA 应 该 如 何 处 理 下 一 个 字符 ?和 回 退 时 的 处 理 方式 相 。 “ 1 
同 ， 除 非 在 pat.charAt(j) 处 匹配 成 功 ， 这 时 DFA 应 该 前 
进 到 状态 j+1。 例 如 ， 对 于 ABAB A C， 要 判断 在 j-5 时 匹 5 人 





配 失败 后 DFA 应 该 怎么 做 。 通 过 DFA 可 以 知道 完全 回 退 之 后 图 538 计算 模式 AB AB AC 的 
算法 会 扫描 B A B A 并 达到 状态 3， 因 此 可 以 将 dfa[] [3] 复 ”重启 状态 的 DEA 模拟 
制 到 dfa[] [5] 并 将 5 所 对 应 的 元 素 的 值 设 为 6， 因为 pat. 
charAt(5) 是 5 (匹配 ) 。 因 为 在 计算 DFA 的 第 j 个 状态 时 只 需要 知道 DFA 是 如 何 处 理 前 j-1 个 
字符 的 ， 所 以 总 能 从 尚 不 完整 的 DFA 中 得 到 所 需 的 信息 。 

计算 中 最 后 一 个 关键 细节 是 ， 你 可 以 观察 到 在 处 理 dfa[] [] 的 第 j 列 时 维护 重启 位 置 X 很 容易 。 
因为 X<j， 所 以 可 以 由 已 经 构造 的 DFA 部 分 来 完成 这 个 任务 一 Xx 的 下 一 个 值 是 dfa[pat.charAt(j)] 
[J。 继 续 上 一 段 中 的 例子 ,将 xX 的 值 更 新 为 dfa['C'] [3]=0 (但 我 们 不 会 使 用 这 个 值 ， 因 为 DFA 的 
构造 已 经 完成 了 ) 。 

由 以 上 的 讨论 可 以 得 到 右 侧 框 注 这 段 短小 精 悍 的 
代码 来 构造 给 定 模式 的 DFA。 对 于 每 个 j， 它 将 会 : dfalpat charauco) HO p17 


for (int X= 0, j= 1;j<M; j++) 
口 将 dfa[] [X] 复制 到 dfa[] [j] (对 于 匹配 失败 { // 计算 dfa[][j] 


的 情况 ) ; for (int c= 0; c < Ri ct+) 
a : dfa[c][j] = dfa[c][X]; 
口 将 dfa[pat.charAt(j)][j] 设 为 j+1 (对 于 dfa[pat.charAt(j)][j] = j+1; 
匹配 成 功 的 情况 ) ; X = dfa[pat.charAt(j)][X]; 
口 更 新 X。 





图 5.3.9 显示 了 这 段 代码 处 理 样 例 输入 的 轨迹 。 为 


KMP 子 字 御 DF/ 上 
了 确保 你 能 完全 理解 它 , 请 完成 练习 5.3.2 和 练习 53 3。 aas 
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767 图 5.3.9 KMP 子 字符 串 查 找 算法 中 模式 A BA BAC 的 DFA 的 构造 











算法 5.6 ”Knuth-Morris-Pratt 字符 串 查找 算法 





public class KMP 
{ 
private String pati 
private int[][] dfa; 
public KMPCString pat) 
{ // 由 模式 字符 事 构 造 DFA 


5.3 子 字符 串 查找 十 501 


this.pat = pat; 
int M = pat.lengthO); 
int R = 256; 
dfa = new int[R][M]; 
dfa[pat.charAt(0)][0] = 1; 
for (int X= 0, j= 1;j<M; j++) 
{ // 计算 dfa[][j] 
for (int c = 0; c <R; c++) 


dfa[c][j] = dfa[c] [X]; // 复制 匹配 失败 情况 下 的 值 
dfa[pat.charAt(j)][j] = j+1; // 设置 匹配 成 荔 情 况 下 的 值 
X = dfa[pat.charAt(j)][X]; // 更 新 重启 状态 


} 
} 
public int search(String txt) 
{ // 在 txt 上 模拟 DFA 的 运行 
int i, j, N = txt.length(), M ~ pat.length(); 
for (i =0,j=0;1i<Nej <M; it) 
j = dfa[txt.charAt(i)][j]; 
ff (j == M) return i - M; // 找到 区 配 (到 达 模 式 字符 事 的 结尾 ) 
else return N; // 未 找到 匹配 ( 到 达 文 本 字符 事 的 结尾 ) 
* 
public static void main(String[] args) 
// 请 见 表 5.3.1 
} 


该 Knuth-Morris-Pratt 子 字 符 串 查找 
算法 的 实现 的 构造 丽 数 根据 模式 字符 申 。 “2% jaYe KMRAAACAA AABRAACADABRAACAADABRA 
构造 了 一 个 确定 有 限 状态 自动 机 , 使 用 pattern: 
search() 方法 在 给 定 文本 字符 串 中 查找 


模式 字符 串 。 它 和 暴力 子 字符 串 查找 算法 的 功能 相同 ， 但 带 适 合 查找 自我 重复 性 的 模式 字符 中 。 








算法 5.6 实现 了 表 5.3.1 所 示 的 API。 768 











表 5.3.1 子 字符 串 查找 的 API 
public class KMP 
KMPCString pat) 根据 模式 字符 串 pat 创建 一 个 DFA 
int search(String txt) 在 txt 中 找到 pat 的 出 现 位 置 





你 可 以 在 下 页 框 注 中 看 到 KMP 的 一 个 典型 的 测试 用 例 。KMP 的 构造 函数 会 根据 模式 字符 串 创 
建 一 个 DFA 并 用 search() 方法 中 在 给 定 的 文本 中 查找 该 模式 字符 串 。 


命题 N。 对 于 长 度 为 M 的 模式 字符 串 和 长 度 为 NN 的 文本 ， Knuth-Morris-Pratt 字符 串 查 找 算法 访 
问 的 字符 不 会 超过 M+N 个 。 


证 明 。 由 代码 可 以 马上 得 到 ， 在 计算 dfa[][] 时 ， te 中 的 每 个 字符 一 次 ， 
在 search() 方法 中 会 访问 文本 中 的 每 个 字符 (最 坏 情况 下 ) 一 次 。 
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我 们 还 需要 引入 另 一 个 参数 ， 即 字母 表 的 大 小 R， 所 以 构造 DFA 所 需 的 总 时 间 ( 和 空间 ) 将 与 
MR 成 正比 。 如 果 在 构造 DFA 时 为 每 个 状态 设置 一 个 匹配 转换 和 一 个 非 匹配 转换 ( 而 非 指向 每 个 可 
能 出 现 的 字符 的 多 个 转换 ) ， 那 么 也 可 以 去 掉 参 数 R， 但 构造 过 程 会 更 加 复杂 一 些 。 





KMP 算法 为 最 坏 情况 提供 的 线性 级 别 
public static void main(String[] args) 运行 时 间 保证 是 一 个 重要 的 理论 成 果 。 在 
{ 实际 应 用 中 ， 它 比 暴力 算法 的 速度 优势 并 
String put naratolt 不 十 分 明显 ， 因 为 极 少 有 应 用 程序 需要 在 
tring txt = args[1]; 

KMP kmp = new KMPCpat); 重复 性 很 高 的 文本 中 查找 重复 性 很 高 的 模 

StdOut,printlnC"text: " s i 
eee hy he ei 或。 但 读 方 法 的 一 个 优点 是 不 生 要 在 输入 
StdOut.print("pattern: "); 中 回 退 。 这 使 得 KMP 子 字符 串 查 找 算法 更 
for (int 1 = 0; 1 < offset; i++) 适合 在 长 度 不 确定 的 输入 流 ( 例如 标准 输 

StdOut.print(™ "); 
StdOut.printin(pat); 入 ) 中 进行 查找 ， 需 要 回 退 的 算法 在 这 种 
} 情况 下 则 需要 复杂 的 缓冲 机 制 。 但 其 实 当 
回 退 很 容易 时 ， 还 可 以 比 KMP 快 得 多 。 下 
KMP 子 字符 中 查找 第 法 的 测试 用 例 面 ， 我 们 来 学 习 一 种 利用 回 退 来 获取 巨大 
性 能 妆 益 的 算法 。 


5.3.4 ”Boyer-Moore 字符 串 查找 算法 

当 可 以 在 文本 字符 串 中 回 退 时 ， 如 果 可 以 从 右 向 左 扫描 模式 字符 串 并 将 它 和 文本 匹配 ， 那 么 就 
能 得 到 一 种 非常 快 的 字符 串 查找 算法 。 例 如 ， 在 查找 子 字符 串 B A A B B A A 时 ， 如果 匹配 了 第 
七 个 和 第 六 个 字符 ,但 在 第 5 个 字符 处 匹配 失败 ， 那 马上 就 可 以 将 模式 向 右 移动 7 个 位 置 并 继续 检 
查 文本 中 的 第 14 个 字符 。 这 是 因为 部 分 匹配 找到 了 X A A 而 X 不 是 B， 而 这 3 个 连续 的 字符 在 模 
式 中 是 唯一 的 。 一 般 来 说 ， 模 式 的 结尾 部 分 也 可 能 出 现在 文本 的 其 他 位 置 ， 因 此 和 Knuth-Morris- 
Pratt 算法 一 样 ， 也 需要 一 个 记录 重启 位 置 的 数组 。 本 节 不 会 再 次 详细 介绍 它 的 构造 方法 ， 因 为 它 和 
Knuth-Morris-Pratt 算法 中 的 实现 很 相似 。 这 里 将 讨论 Boyer 和 Moore 给 出 的 另 一 种 从 右 向 左 扫描 模 
式 字符 串 的 更 有 效 的 方法 。 

和 KMP 子 字符 串 查找 算法 的 实现 一 样 ， 我 们 会 根据 匹配 失败 时 文本 和 模式 中 的 字符 来 决定 下 

- 步 的 行动 。 而 预 处 理 步骤 的 目的 在 于 判断 对 于 文本 中 可 能 出 现 的 每 一 个 字符 ， 在 匹配 失败 时 算法 

应 该 怎么 办 。 将 这 个 想法 变 为 现实 就 可 以 得 到 一 种 高 效 实用 的 子 字符 串 查 找 算法 。 
5.3.4.1 启发 式 的 处 理 不 匹配 的 字符 

请 看 图 5.3.10， 它 显示 了 在 文本 F INDINAHAYSTACKNEEDLE 中 查找 模 
式 N E E D L E 的 过 程 。 因 为 是 从 右 向 左 与 模式 进行 匹配 ， 所 以 首先 会 比较 模式 字符 串 中 的 E 和 
文本 中 的 N (位 置 为 5 的 字符 ) 。 因 为 N 也 出 现在 了 模式 字符 串 中 ， 所 以 将 模式 字符 串 向 右 移动 5 
个 位 置 ， 将 文本 中 的 字符 N 和 模式 字符 串 中 ( 最 左 侧 ) 的 N 对 齐 。 然 后 比较 模式 字符 串 最 右 侧 的 E 
和 文本 中 的 5 (位置 在 第 10 个 字符 ) ， 匹 配 失败 。 但 因为 5 不 包含 在 模式 字符 串 中 ， 所 以 可 以 将 
模式 字符 串 向 右 移动 6 个 位 置 。 此 时 模式 字符 串 最 右 侧 的 E 和 文本 中 位 置 为 16 的 E 相 匹配 ， 但 我 
们 发 现 文本 的 下 一 个 (位 置 为 15 的 ) 字符 为 N， 匹 配 再 次 失败 。 于 是 和 第 一 次 一 样 ， 将 模式 字符 串 
再 次 向 右 移动 5 个 位 置 。 最 后 ， 从 位 置 20 处 开始 从 右 向 左 扫描 ， 发 现 文本 中 含有 与 模式 匹配 的 子 
字符 串 。 这 种 方法 找到 匹配 位 置 仅 用 了 4 次 字符 比较 (以 及 6 次 比较 来 验证 匹配 ) ! 
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0 5 E -一 模式 字符 串 
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X 
返回 i=15 
图 5.3.10 ”从 右 向 左 的 (Boyer-Moore) 子 字符 串 查 找 中 的 启发 式 地 处 理 不 匹配 的 字符 770| 

5.3.4.2 起 点 

要 实现 启发 式 的 处 理 不 匹配 的 字符 ,我们 村 
使 用 数组 right[] 记录 字母 表 中 的 每 个 字符 在 < 0 Tt 
模式 中 出 现 的 最 壬 的 地 方 ( 如 果 字 符 在 模式 人 1 
中 不 存在 则 表示 为 -1 ) 。 这 个 值 揭示 了 如 果 该 cC -1 ey 
字符 出 现在 文本 中 且 在 查找 时 造成 了 一 次 匹配 。 D -1 3 3 
失败 ， 应 该 向 右 跳跃 多 远 。 要 将 right[] 数 组 E -1 有 
初始 化 ， 首 先 将 所 有 元 素 的 值 设 为 -1， 然 后 对 [1 六 
于 0 到 M-1 的 j,， 将 right[pat.charAt(j)] M -1 a 
设 为 j, 如 图 5.3.11 对 模式 NEEDLE 的 处 N -1 0 0 
理 所 示 。 a 也 
5.3.4.3 子 字符 串 的 查找 图 53.11 Boyer-Moore 算法 中 的 跳跃 表 的 计算 

在 计算 完 right[] 数组 之 后 ,算法 5.7 的 请 
实现 就 很 简单 了 。 我 们 用 一 个 索引 i 在 文本 中 ! + 
从 左 向 右 移动 ， 用 另 一 个 索引 j 在 模式 中 从 右 人 
向 左 移动 。 内 循环 会 检查 正文 和 模式 字符 串 在 
位 置 1 是否 一 致 。 如 果 从 M-1 到 0 的 所 有 j， de 了 似 于 KMP 算 法 的 
txt.charAt(i+j) 都 和 pat.charAt(j) 相等 ， + ,表格 将 i 变 得 更 大 
那么 就 找到 了 一 个 匹配 。 否 则 匹配 失败 ， 就 会 
过 到 以 下 三 种 情况 。 和 重要-1 1 


口 和 时 造 成 配 失 由 的 字符 不 包 人 在 酌 式 。 ep 
字符 串 中 ， 将 模式 字符 串 向 右 移 动 j+1 3.12 启发 式 的 处 理 不 匹配 的 字符 《不 匹配 的 
个 位 置 (即将 ;增加 j+1 ) 。 小 于 这 个 TE) 

仿 移 量 只 可 能 使 该 字符 与 模式 中 的 某 个 字符 重要 。 事 实 上 ， 这 次 移动 也 会 将 模式 字符 串 前 面 
一 部 分 已 知 的 字符 和 模式 结尾 的 一 部 分 已 知 字符 对 齐 。 通 过 预先 计算 一 张 类 似 于 KMP 算法 
的 表格 ， 还 可 以 将 1 值 变 得 更 大 ( 请 见 图 5.3.12 ) 。 

口 如 果 造 成 匹配 失败 的 字符 包含 在 模式 字符 串 中 。 那 就 可 以 使 用 right[] 数组 来 将 模式 字符 
串 和 文本 对 齐 ， 使 得 该 字符 和 它 在 模式 字符 串 中 出 现 的 最 右 位 置 相 匹配 。 和 刚才 一 样 ， 小 于 
这 个 偏 移 量 只 可 能 使 该 字符 和 模式 中 的 与 它 无 法 匹配 的 字符 ( 比 它 出 现 的 最 右 位 时 更 靠 右 的 
字符 ) 重 矢 。 我 们 可 以 用 一 张 类 似 于 KMP 算法 的 表格 将 1 变 得 更 大 ， 如 图 5.3.13 所 示 。 [771 

口 如 果 这 种 方式 无 法 增 大 i， 那 就 直接 将 i 加 1 来 保证 模式 字符 串 至 少 向 右 移动 了 一 个 位 置 
图 53.13 下 方 的 例子 说 明了 这 种 情况 。 
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算法 5.7 简明 地 实现 了 这 个 过 程 。 基本 思想 

请 注意 ,使 用 -1 表示 right[] 数组 中 N 
相应 字符 不 包含 在 模式 字符 串 中 ， 这 个 , 
了 

i 

+ 


re 
mm 


约定 能 够 将 前 两 种 情况 合并 (将 1 增 大 
j-right[txt.charAt(i+j)] ) 。 将 i 增 大 j-right['N'] 来 
完整 的 Boyer-Moore 算法 预计 算 了 。 将 文本 和 模式 中 的 N 对 齐 
模式 字符 申 与 自身 的 不 匹配 情况 ( 和 
KMP 算法 的 方式 类 似 ?) 并 为 最 坏 情况 郊 j 重 蝎 N-1 
提供 了 线性 级 别 的 运行 时 间 保 证 (而 算 
法 5.7 在 最 坏 情况 下 的 运行 时 间 与 NM 。 启发 式 方法 没有 起 作用 的 情况 
成 正比 一 -请 见 练习 5.3.19 ) 。 我 们 在 + . 
这 里 省 略 了 算法 的 计算 ， 因 为 在 一 般 的 证 
t 
: 


可 以 根据 一 张 类 
似 于 KMP 算 法 的 
表格 将 i 变 得 更 大 


mm 


应 用 程序 中 对 不 匹配 字符 的 启发 式 处 理 
已 经 可 以 控制 算法 的 性 能 。 如 果 将 文本 和 模式 最 有 端的 E 
对 至 则 会 将 模式 字符 趾 向 左 移动 


可 以 根据 一 张 类 
因此 只 能 将 i 加 1 Dp 
命题 O。 在 一 般 情况 下 ， 对 于 长 度 
为 N 的 文本 和 长 度 为 M 的 模式 字 
符 囊 ， 使 用 了 Boyer-Moore 的 子 字 将 j 重 要 为 M-1 j 


图 5.3.13 ”启发 式 的 处 理 不 匹配 的 字符 (不 匹配 的 字符 包含 
的 字 3. 不 匹配 的 字符 
配 的 字符 需要 ~MA 次 字符 比较 。 在 模式 字符 串 中 ) 


讨论 。 我 们 可 以 用 各 种 随机 字符 囊 模型 证 明 该 结论 ， 但 这 些 模型 一 般 都 不 太 可 能 在 实际 情况 中 


出 现 ， 因 此 这 里 省 略 了 证 明 的 细节 。 在 许多 实际 应 用 场景 中 ， 模 式 字符 囊 中 仅 含有 字母 表 中 的 
若干 字符 是 很 常见 的 ， 因 此 几乎 所 有 的 比较 都 会 便 算法 跳 过 M 个 字符 ,这 样 就 得 到 了 以 上 结论 。 


算法 5.7 Boyer-Moore 字符 串 匹 配 算法 〈 启 发 式 地 处 理 不 匹配 的 字符 ) 





public class BoyerMoore 
{ 
private int[] right; 
private String pat; 
BoyerMoore(String pat) 
{ // 计算 跑 跃 表 
this.pat = pat; 
int M = pat.1lengthO); 
int R = 256; 
right = new int[R]; 


外 即 跳 聊 表 。 一 一 译 者 注 


位 置 的 表格 。 查 找 算法 会 从 右 向 左 扫描 模式 字符 串 ， 并 在 匹配 失败 时 通过 跳跃 将 文本 中 的 字符 和 它 在 模 77 
式 字符 串 中 出 现 的 最 右 位 置 对 齐 。 13 


5.3 子 字符 串 查找 号 505 







for (int < C < Ri c++) 
right[c] 1; // 不 包含 在 模式 字符 事 中 的 字符 的 值 为 -1 
for (int j = j < M; j++) // 包含 在 模式 字符 事 中 的 字符 的 值 为 
right[pat.charAt(j)] = ji // 它 在 其 中 出 现 的 最 右 位 轩 


} 


public int search(String txt) 
{ // 在 txt 中 查找 模式 字符 事 
int N = txt. lengthO; 
int M = pat.length(); 
int skip; 
for (int 1 = 0; 1 <= N-M; 1 += skip) 
人 // 模式 字符 囊 和 文本 在 位 置 1 匹配 吗 ? 
skip = 0; 
for (int j = M-1; j >= 0; j--) 
if (pat.charAt(j) != txt.charAt(i+j)) 
{ 
skip = j - right[txt.charAt(i+j)]; 
if (skip < 1) skip = 1; 
break; 
} 
if (skip == 0) return ii /找到 匹配 
}* 
return N; // 未 找到 匹配 
} 


public static void main(String[] args) // 请 见 表 53.1 
和 


这 段子 字符 串 查找 算法 的 实现 的 构造 函数 根据 模式 字符 串 构造 了 一 张 每 个 字符 在 模式 中 出 现 的 最 右 

















5.3.5 ”Rabin-Karp 指纹 字符 串 查找 算法 


M.O.Rabin 和 R.A.Karp 发 明了 一 种 完全 不 同 的 基于 散 列 的 字符 串 查找 算法 。 我 们 需要 计算 模式 


字符 串 的 散 列 函数 ， 然 后 用 相同 的 散 列 函 数 计算 文本 中 所 有 可 能 的 M 个 字符 的 子 字符 串 散 列 值 并 
寻找 匹配 。 如 果 找到 了 一 个 散 列 值 和 模式 字符 串 相同 的 子 字符 串 ， 那 么 再 继续 验证 两 者 是 否 匹配 。 
这 个 过 程 等 价 于 将 模式 保存 在 一 张 散 列表 中 ， 然 后 在 文本 的 所 有 子 字符 串 中 进行 查找 。 但 不 需要 为 
散 列表 预 留任 何 空间 ， 因 为 它 只 会 含有 一 个 元 素 。 根 据 这 段 描述 直接 实现 的 算法 将 会 比 暴力 子 字符 
串 查找 算法 慢 很 多 ( 因为 计算 散 列 值 将 会 涉及 字符 串 中 的 每 个 字符 ， 成 本 比 直接 比较 这 些 字符 要 高 
得 多 ) 。Rabin 和 Karp 发 明了 一 种 能 够 在 常数 时 间 内 算出 M 个 字符 的 子 字符 串 散 列 值 的 方法 ( 需 
要 预 处 理 ) ， 这 样 就 得 到 了 在 实际 应 用 中 的 运行 时 间 为 线性 级 别 的 字符 串 查找 算法 。 

5.3.5.1 基本 思想 


长 度 为 M 的 字符 串 对 应 着 一 个 R 进 制 的 M 位 数 。 为 了 用 一 张大 小 为 Q 的 散 列表 来 保存 这 种 类 型 


的 键 , 需要 一 个 能 够 将 R 进 制 的 M 位 数 转化 为 一 个 0 到 Q-1 之 间 的 int 值 散 列 函数 。 除 留 余数 法 ( 请 
见 3.4 节 ) 是 一 个 很 好 的 选择 : 将 该 数 除 以 Q 并 取 余 。 在 实际 应 用 中 会 使 用 一 个 随机 的 素数 Q， 在 不 
溢出 的 情况 下 选择 一 个 尽 可 能 大 的 值 。 ( 因为 我 们 并 不 会 真 的 需要 一 张 散 列表 。) 理解 这 个 方法 最 
简单 的 办 法 就 是 取 一 个 较 小 的 Q 和 R=10 的 情况 ， 如 下 所 示 。 要 在 文本 3 1 4 1 5 9 2 6 5 3 5 8 
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9 7 9 3 中 找到 模式 2 6 5 3 5， 首 先 要 选择 散 列表 的 大 小 Q (在 这 个 例子 中 是 997 ) ， 则 散 列 值 为 
26535 % 997 = 613， 然 后 计算 文本 中 所 有 长 度 为 5 个 数字 的 子 字符 串 的 散 列 值 并 寻找 匹配 。 在 这 个 
例子 中 , 在 找到 613 的 匹配 之 前 , 得 到 的 散 列 值 分 别 为 508、201、715、971、442 和 929, 请 见 图 5.3.14。 


pat.charAt(j) 
本 在 1 
26 53 5 %997= 613 


txt.charAt(i) 

5 67 8 9101112131415 
92653589793 
% 997 = 508 

% 997 = 201 

2 % 997 = 715 

6 % 997 = 971 

6 5 %997 = 442 
6 5 3 %997 = 929 
一 返回 i=6 6535%997-613 


图 5.3.14 Rabin-Karp 字符 串 查找 算法 的 基本 思想 
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5.3.5.2 “计算 散 列 函数 
对 于 5 位 的 数值 ， 只 需 使 用 int 值 即 可 
i 1 hash(String key, i 
完成 所 有 所 需 的 计算 。 但 如 果 是 00 或 者 。 yn 0 





1000 怎么 办 ? 这 里 使 用 的 是 Homer 方 法 ， tn rar a ss 
它 和 3.4 节 中 见 过 的 用 于 字符 串 和 其 他 多 值 h = CR * h + key.charAtC)) % Qi 
类 型 的 键 的 计算 方法 非常 相似 ,代码 如 下 面 "ern hs; ， 
框 注 所 示 。 这 段 代码 计算 了 用 char 值 数组 表 

示 的 R 进 制 的 M 位 数 的 散 列 函数 ， 所 需 时 间 Horner 方 法 , 用 于 除 留 余数 法 计算 散 列 值 


与 MM 成 正比 。( 将 M 作 为 参数 传递 给 该 方法 ， 

这 样 就 可 以 将 它 同时 用 于 模式 字符 串 和 正文 。) 对 于 这 个 数 中 的 每 一 位 数字 ， 将 散 列 值 乘 以 R， 加 
上 这 个 数字 ， 除 以 Q 并 取 其 余数 。 例 如 ， 这 样 计算 示例 模式 字符 串 散 列 值 的 过 程 如 图 5.3.15 所 示 。 
我 们 也 可 以 用 同样 的 方法 计算 文本 中 的 子 字符 串 散 列 值 ， 但 这 样 一 来 字符 串 查 找 算法 的 成 本 就 将 是 
对 文本 中 的 每 个 字符 进行 乘法 、 加 法 和 取 余 计算 的 成 本 之 和 。 在 最 坏 情 况 下 这 需要 NM 次 操作 ， 相 

对 于 暴力 子 字符 串 查 找 算法 来 说 并 没有 任何 改进 。 


pat.charAt(j) 


1 Lai 4 
天 6- 生生 和 
0 2 %997=2 A 
1 2 6 %997= (2*10 +6) % 997 = 26 
2 2 6 5 %997= (26*10+5) %997 = 265 
3 26 5 3 %997= (265*10 +3) %997 = 659 
4 265 3 5 %997= (659*10+5)%997= 613 


图 5.3.15 ”使 用 Homer 方法 计算 模式 字符 串 的 散 列 值 


5.3.5.3 ”关键 思想 


5.3 子 字符 串 查找 号 507 


Rabin-Karp 算法 的 基础 是 对 于 所 有 位 置 1， 高 效 计算 文本 中 i+1 位 置 的 子 字符 串 散 列 值 。 这 可 
以 由 一 个 简单 的 数学 公式 得 到 。 我 们 用 “表示 txt.charAt(i)， 那 么 文本 txt 中 起 始 于 位 置 i 的 


含有 M 个 字符 的 子 字符 串 所 对 应 的 数 即 为 : 


xEUR HR HR 
假设 已 知 h(x)=x, mod OQ。 将 模式 字符 串 右 移 一 位 即 等 价 于 将 x 替换 为 : 
rcrOR JR+ity 

即将 它 减 去 第 一 个 数字 的 值 ， 乘 以 R， 再 加 上 最 后 一 个 数字 的 值 。 现 在 ， 关 键 的 一 点 在 于 
不 需要 保存 这 些 数 的 值 ， 而 只 需要 保存 它们 除 以 2 之 后 的 余数 。 取 余 操 作 的 一 个 基本 性 质 是 如 
果 在 每 次 算术 操作 之 后 都 将 结果 除 以 2 并 取 余 ， 这 等 价 于 在 完成 了 所 有 算术 操作 之 后 再 将 最 后 
的 结果 除 以 2 并 取 余 。 曾 经 在 用 Horner 方 法 ( 请 见 3.1.1.4 节 ) 实现 除 留 余数 法 时 利用 过 这 个 
性 质 。 这 么 做 的 结果 就 是 无 论 M 是 5、100 还 是 1000， 都 可 以 在 常数 时 间 内 高 效 地 不 断 向 右 一 


格 一 格 地 移动 。 
5.3.5.4 ”实现 
根据 以 上 讨论 可 以 立即 得 到 算法 5.8 中 对 该 

子 字符 串 查找 算法 的 实现 。 构 造 函数 为 模式 字 
符 串 计算 了 散 列 值 patHash 并 在 变量 RM 中 保 
存 了 R“ mod 0 的 值 。 hashSearch0) 方法 开 
头 计算 了 文本 的 前 M 个 字母 的 散 列 值 并 将 它 和 
模式 字符 串 的 散 列 值 进行 比较 。 如 果 未 能 匹配 ， 
它 将 会 在 文本 中 继续 前 进 ， 用 以 上 讨论 的 方法 
计算 由 位 置 i 开始 的 M 个 字符 的 散 列 值 ， 将 它 
保存 在 txtHash 变量 中 并 将 每 个 新 的 散 列 值 和 
patHash 进行 比较 ， 请 见 图 5.3.16 和 图 5.3.17。 

(在 txtHash 的 计算 中 ,额外 加 上 了 一 个 @ 来 
保证 所 有 的 数 均 为 正 ， 这 样 取 余 操作 才能 够 得 
到 预期 的 结果 。) 
5.3.5.5 小 技巧 : 用 蒙特 卡 洛 法 验证 正确 性 





i 2 WB WE 0 A 
当前 值 4159 2 
新 值 159 2 6 3 
4 1 5 9 2 当前 值 
-40000 
1 5 9 2 减 去 第 一 个 数字 的 值 
* 1 0 乘 以 基数 
59 2 0 
+ 6 加 上 新 的 末尾 数字 


1 5 9 2 6 新 值 


图 5.3.16 Rabin-Karp 字符 串 查 找 算法 中 的 关键 
计算 (在 文本 中 右 移 一 位 ) 


在 文本 txt 中 找到 散 列 值 与 模式 字符 串 相 匹配 的 一 个 M 个 字符 的 子 字符 串 之 后 ， 你 可 能 会 逐 
个 比较 它们 的 字符 以 确保 得 到 了 一 个 匹配 而 非 相同 的 散 列 值 。 我 们 不 会 这 么 做 ， 因 为 这 需要 回 退 文 
本 指针 。 作 为 替代 ， 这 里 将 散 列 表 的 “规模 ”2 设 为 任意 大 的 一 个 值 ， 因 为 我 们 并 不 会 真 构造 一 张 
散 列表 而 只 是 希望 用 模式 字符 串 验证 是 否 会 产生 冲突 。 我 们 会 取 一 个 大 于 10” 的 1ong 型 值 ， 使 得 
一 个 随机 键 的 散 列 值 与 模式 字符 串 冲 突 的 概率 小 于 10。 这 是 一 个 极 小 的 值 。 如 果 它 还 不 够 小 ， 你 
可 以 将 这 种 方法 运行 两 遍 ， 这 样 失败 的 几率 将 会 小 于 10“。 这 是 蒙特 卡 洛 算法 一 种 著名 早期 应 用 ， 
它 既 能 够 保证 运行 时 间 ， 失 败 的 概率 又 非常 小 。 检 查 匹配 的 其 他 方法 可 能 很 慢 ( 性 能 有 很 小 的 概率 
相当 于 暴力 算法 ) 但 能 够 确保 正确 性 。 这 种 算法 被 称 为 拉 斯 维 加 斯 算法 。 
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i 012345678 910112131415 
31415926 5 3589793 

0 3 %997=3 2 

1 3 1 %997= (3*10+1)%997=31 

2 3 1 4 %997= (31*10 + 4) % 997 = 314 

3 3 1 4 1 %997= (314*10 + 1) % 997 = 150 

4 314 1 5 %997= (150*10+5)%997= 508 R 

5 141 5 9 %997= ((508 + 3*(997 - 30))*10 + 9) % 997 = 201 

6 4 1 5 9 2 %997= (201 + 1*(997 - 30))*10 + 2) % 997 = 715 

7 1592 6%997-=((715 + 4*(997 - 30))*10 + 6) % 997 = 971 

8 5 92.65%997=((971+1*(997 - 30))*10 + 5) % 997 = 442 匹配 

9 9 2 6 5 3%997-((442+5*(997 - 30))*10 + 3) % 997 = 929 | 

10 -一 返回 i-M+1=6 265 3 5 %997= ((929+9*(997 - 30))*10 + 5) % 997 = 613 





图 5.3.17 Rabin-Karp 子 字符 串 查找 算法 举例 


算法 5.8 ”Rabin-Karp 指纹 字符 串 查找 算法 





public class RabinKarp 


{ 


private String pat; 


// 机 式 字符 事 ( 仅 拉 斯 维 加 斯 算法 需要 ) 


private long patHash; // 杰 式 字符 事 的 数列 值 


private int M; 
private long Q; 
private int R = 256; 
private long RM; 


// 模式 字符 事 的 长 度 
// 一 个 很 大 的 素数 
// 字母 表 的 大 小 
// RAM-1) % Q 


public Rabinkarp(String pat) 


4 
this.pat = pat; 


// 保存 模式 字符 事 〔 仅 拉 斯 维 加 斯 算法 需要 ) 


this.M = pat.length(); 
Q = longRandomPrime(); // 请 见 练习 5.3.33 


RM = 1; 
for Cint 1 = 1; i 


<= M-1; i++) // 计 ¥RAC(M-1) % Q 


RM = (R* RM) % Qi; // 用 于 减 去 第 一 个 数字 时 的 计算 
patHash = hash(pat, M); 


public boolean check(int i) // 繁 特 卡 洛 算法 (请 见 正文 ) 


{ return true; } 


// 对 于 拉 斯 维 加 斯 算法 ,检查 模式 与 txXt(i, .i-M+l) 的 匹配 


private long hash(String key, int M) 


// 请 见 正文 


private int search(String txt) 
人 // 在 文本 中 查找 相等 的 数列 值 
int N = txt.lengthO); 
1ong txtHash = hash(txt, M); 
if (patHash == txtHash&&ckeck(0)) return 0;  // 一 开始 就 匹配 成 功 


for (int i = M; i 


< Ni ir+) 


{ // 减 去 第 一 个 数字 ， 加 上 最 后 一 个 数字 ， 再 次 检查 匹配 
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txtHash = (txtHash + Q - RM*txt.charAt(i-M) % Q) % Q; 
txtHash = (txtHash*R + txt.charAt(i)) % Q; 
if (patHash =— txtHash) 


if (check(i - M+ 1)) return i - M + 1; // 找到 匹配 


} 
return N; // 未 找到 匹配 
} 
} 


该 字符 串 查找 算法 的 基础 是 散 列 。 它 在 构造 函数 中 计算 了 模式 字符 串 的 散 列 值 并 在 文本 中 查找 该 散 
列 值 的 匹配 。 777 

















命题 P。 使 用 蒙特 卡 治 算法 的 Rabin-Karp 子 字符 事 查 找 算法 的 运行 时 间 是 线性 级 别 的 且 出 错 的 
概率 极 小 。 使 用 拉 斯 维 加 斯 算法 的 Rabin-Karp 子 字符 串 查找 算法 能 够 保证 正确 性 且 性 能 极其 接 
近 线 性 级 别 。 


讨论 。 因 为 我 们 不 需要 实际 创建 一 张 散 列表 ， 使 用 非常 大 的 Q 几乎 不 可 能 发 生 散 列 值 冲突 。 
Rabin 和 Karp 证 明了 只 要 选择 了 适当 的 Q 值 ， 随 机 字符 囊 产 生 散 列 碰撞 的 概率 为 /Q。 这 意味 
着 对 于 这 些 变 量 实际 可 能 出 现 的 值 ， 字 符 囊 不 匹配 时 散 列 值 也 不 会 匹配 ， 散 列 值 匹配 时 字符 串 
才 会 匹配 。 理 论 上 来 说 ,文本 中 的 某 个 子 字 符 囊 可 能 会 在 与 模式 不 匹配 的 情况 下 产生 散 列 冲突 ， 
但 在 实际 应 用 中 使 用 该 算 活 寻 找 匹配 是 可 靠 的 。 


如 果 你 对 概率 论 ( 或 者 我 们 使 用 的 随机 字符 串 模型 以 及 生成 随机 数字 的 代码 ) 并 不 是 很 有 信心 ， 
那么 可 以 在 check () 方法 中 添加 检查 文本 子 字符 串 和 模式 是 否 匹配 的 代码 。 这 将 把 算法 5.8 变 成 拉 
斯 维 加 斯 版 本 请 见 练习 5.3.12 ) 。 如 果 你 再 添加 一 个 方法 来 检查 这 段 代码 是 否 真正 被 执行 过 ， 随 
着 时 间 的 推移 你 就 会 逐渐 相信 概率 论 的 证 明了 。 

Rabin-Karp 字符 串 查找 算法 也 称 为 指纹 字符 串 查找 算法 , 因为 它 只 用 了 极 少 量 信息 就 表示 了 ( 可 
能 非常 大 的 ) 模式 字符 串 并 在 文本 中 寻找 它 的 指纹 ( 散 列 值 ) 。 算 法 的 高 效 性 来 自 于 对 指纹 的 高 效 
计算 和 比较 。 


5.3.6 总 结 
表 5.3.2 总 结 了 我 们 已 经 讨论 过 的 各 种 子 字符 串 查找 算法 。 尽 管 常常 出 现 多 个 算法 都 能 完成 相 

同 的 任务 的 情况 , 但 它们 都 各 有 特点 : 暴力 查找 算法 的 实现 非常 简单 且 在 一 般 的 情况 下 都 工作 良好 ; 

(Java 的 String 类 型 的 index0f() 方法 使 用 的 就 是 暴力 子 字符 串 查找 算法 。 ) Knuth-Morris-Pratt 
算法 能 够 保证 线性 级 别 的 性 能 且 不 需要 在 正文 中 回 退 ; Boyer-Moore 算法 的 性 能 在 一 般 情况 下 都 是 亚 
线性 级 别 ( 可 能 是 线性 级 别 的 M 倍 ) ; Rabin-Karp 算法 是 线性 级 别 。 每 种 算法 也 各 有 缺点 ， 暴力 查 
找 算法 所 需 的 时 间 可 能 和 MN 成 正比 ，Knuth-Morris-Pratt 算法 和 Boyer-Moore 算法 都 需要 额外 的 内 存 
空间 ，Rabin-Karp 算法 的 内 循环 很 长 ( 若干 次 算术 运算 ， 而 其 他 算法 都 只 需要 比较 字符 ) 。 这 些 特点 
都 总 结 在 了 表 5.3.2 中 。 


3 
3 
Bj 
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( 续 ) 
表 5.3.2 各 种 字符 串 查 找 算法 的 实现 的 成 本 总 结 
操作 次 数 _ 
算 法 版 本 -最 环 情况 “一般 情况 在 文本 中 回 退 。 正确 性 ”额外 的 空间 需求 

暴力 算法 = MN LIN 是 是 1 

完整 的 DFA 

1 2N LIN 否 是 MR 

Knuth-Morris-Pratt 《算法 5.6) 
算法 仅 构 造 不 匹配 的 状态 转换 3N LIN 否 是 M 

完整 版 本 3N NM 是 是 及 
Boyer-Moore 算法 i MN NM 是 是 有 R 

蒙特 卡 洛 算法 轴 了 
Rabin-Kam 算法 ” (算法 5.8) 人 人 如 是 

拉 斯 维 加 斯 算法 7N” 7N 是 是 1 








* 概率 保证 ， 需 要 使 用 均匀 和 独立 的 散 列 函 才 


图 答疑 
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子 字符 趾 查 找 问题 看 起 来 并 没有 什么 实际 用 处 ， 我 们 真 的 需要 理解 这 些 复杂 的 算法 吗 ? 

这 个 ……Boyer-Moore 算法 能 够 将 速度 提高 M 倍 ， 在 实际 应 用 当中 还 是 相当 强大 的 。 另 外 ， 人 能 够 处 
理 流 输 入 【无 需 回 退 ) 的 性 质 也 给 KMP 算法 和 Rabin-Karp 算法 带 来 了 许多 应 用 。 除 了 这 些 直接 的 
实际 应 用 之 外 ， 这 些 算法 也 为 我 们 介绍 了 抽象 自动 机 和 随机 性 在 算法 设计 领域 的 应 用 。 

为 什么 不 能 通过 将 所 有 字符 都 转换 为 二 进 制 数 并 处 理 二 进 制 的 文本 来 简化 问题 呢 ? 

这 种 方法 并 没有 什么 效果 ， 因 为 字符 的 边界 处 可 能 产生 错误 的 匹配 


5.3.1 使 用 算法 5.6 相同 的 API， 开 发 一 个 暴力 子 字符 串 查找 算法 的 实现 Brute。 
5.3.2 在 Knuth-Morris-Pratt 算法 中 ， 给 出 模式 A A A A A A A A A 的 dfa[][] 数组 ， 按 照 正文 中 的 样 


式 画 出 DFA。 


5.3.3 在 Knuth-Morris-Pratt 算法 中 ， 给 出 模式 AB R A C A D A B R A 的 dfa[][] 数组 ,按照 正文 中 


的 样式 画 出 DFA。 


5.3.4 “编写 一 个 方法 ， 接 受 一 个 字符 串 txt 和 一 个 整数 M 作 为 参数 ， 返 回 字 符 串 中 M 个 连续 的 空格 第 一 


次 出 现 的 位 置 ， 如 果 不 存在 则 返回 txt.1length。 估 计 你 的 方法 在 一 般 的 文本 中 和 在 最 坏 情况 下 
所 需 的 字符 比较 次 数 。 


5.3.5 ”开发 一 个 暴力 子 字符 串 查找 算法 的 实现 BruteForceRL， 从 右 向 左 匹配 模式 字符 串 (算法 5.7 的 简 


化 版 本 ) 。 


5.3.6 给 出 算法 5.7 的 构造 函数 计算 模式 AB R A C A D A B R A 所 得 到 的 right[] 数组 。 
5.3.7 ”为 暴力 子 字符 串 查找 算法 的 实现 添加 一 个 count 〇 方法 ,统计 模式 字符 串 在 文本 中 的 出 现 次 数 ， 


再 添加 一 个 searchA110 方法 来 打印 出 所 有 出 现 的 位 置 。 


5.3.8 为 KMP 类 添加 一 个 count0Q 方法 来 统计 模式 字符 串 的 在 文本 中 的 出 现 次 数 ， 再 添加 一 个 


searchA110 方法 来 打印 出 所 有 出 现 的 位 置 。 
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5.3.9 为 BoyerMoore 类 添加 一 个 count() 方法 来 统计 模式 字符 串 的 在 文本 中 的 出 现 次 数 ， 再 添加 一 个 


5.3.10 


5.3.11 


5.3.12 


5.3.13 


5.3.14 


5.3.15 
5.3.16 


5.3.17 


5.3.18 


5.3.19 


5.3.20 


5.3.21 


5.3.22 
5.3.23 


searchA110 方法 来 打印 出 所 有 出 现 的 位 置 。 


为 RabinKarp 类 添加 一 个 count 0 方法 来 统计 模式 字符 串 的 在 文本 中 的 出 现 次 数 ， 再 添加 一 个 
searchA11() 方法 来 打印 出 所 有 出 现 的 位 置 。 

为 算法 5.7 实现 的 Boyer-Moore 算法 构造 一 个 最 坏 情 况 下 的 输入 ( 说 明 它 的 运行 时 间 不 是 线性 级 
别 的 ) 。 

为 RabinKarp 类 ( 算法 5.8 ) 的 check() 方法 中 添加 代码 , 将 它 变 为 使 用 拉 斯 维 加 斯 算法 的 版 本 ( 检 
查 给 定位 置 的 文本 和 模式 字符 串 是 否 匹配 ) 。 

在 算法 5.7 实现 的 Boyer-Moore 算法 中 ,证 明 当 c 为 模式 字符 串 中 的 最 后 一 个 字符 时 ， 能 够 将 
right[c] 设 为 c 在 模式 字符 串 中 的 倒数 第 二 次 出 现 的 位 置 。 

使 用 char[] 代替 String 来 表示 文本 和 模式 字符 串 ， 给 出 本 节 中 的 各 种 子 字符 串 查 找 算法 的 实现 。 
设计 一 个 从 右 向 左 扫描 模式 字符 串 的 暴力 子 字符 串 查 找 算法 。 

按照 正文 中 轨迹 的 样式 显示 暴力 子 字符 串 查找 算法 在 处 理 以 下 模式 和 文本 时 的 轨迹 。 

a. 模式 : AAAAAAAB 文本 : AAAAAAAAAAAAAAAAAAAAAAAAB 

b. 模式 : ABABABAB 文本 : ABABABABAABABABABAAAAAAAA 

为 以 下 模式 字符 串 画 出 KMP 算法 的 DFA。 

a. AAAAAAB 

b. AACAAAB 

c.ABABABAB 

d ABAABAAABAAAB 

e.ABAABCABAABCB 

假设 模式 字符 串 和 文本 都 是 由 大 小 为 R_( 不 小 于 2 ) 的 字母 表 随 机 生成 的 字符 串 。 证 明 暴 力 算法 
预期 的 字符 比较 次 数 为 (W-A+D(I-R MI-R-D) < 2(N_M+1)。 

构造 一 个 使 Boyer-Moore 算法 ( 仅 使 用 对 不 匹配 字符 的 启发 式 查 找 ) 性 能 低下 的 样 例 输入 。 

如 何 修改 Rabin-Karp 算法 才能 够 判定 人 个 模式 ( 假设 它们 的 长 度 全 部 相同 ) 中 的 任意 子 集 出 现 
在 文本 之 中 ? 

解答 : 计算 所 有 上 个 模式 字符 串 的 散 列 值 并 将 散 列 值 保存 在 一 个 StringSET( 请 见 练习 52.6 ) 对象 中 。 
如 何 修改 Rabin-Karp 算法 来 查找 中 间 字 符 为 “通配符 ” ( 能 够 匹配 任意 字符 的 符号 ) 的 模式 字 
符 串 ? 

如 何 修改 Rabin-Karp 算法 来 在 NxN 的 文本 中 查找 一 个 xy 的 模式 ? 

编写 一 个 程序 ， 一 次 读 入 字符 串 中 的 一 个 字符 并 立即 判断 当前 字符 串 是 否 为 回 文 。 提示: 使 用 
Rabin-Karp 的 散 列 思想 。 


图 提高 是 


5.3.24 


5.3.25 


找 出 所 有 子 字符 串 。 为 我 们 学 习 过 的 4 种 字符 串 查找 算法 添加 一 个 findA110) 方法 ， 返 回 一 个 
Iterable<Integer> 对 象 使 得 用 例 能 够 遍历 文本 中 模式 字符 串 出 现 的 所 有 位 置 。 

流 输 入 。 为 KMP 类 添加 一 个 search() 方法 ， 接 受 一 个 In 类 型 的 变量 作为 参数 ， 在 不 使 用 其 
他 任何 实例 变量 的 条 件 下 在 指定 的 输入 流 中 查找 模式 字符 串 。 为 RabinKarp 类 也 添加 一 个 类 似 
的 方法 。 
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5.3.34 ”直线 型 代码 。?Java 的 虚拟 机 ( 以 及 计算 机 上 的 汇 


5.3.26 回环 变 位 。 编 写 一 个 程序 ， 对 于 给 定 的 两 个 字符 串 ， 检 查 它们 是 否 互 为 对 方 的 回环 变 位 。 例 如 


example 和 ampleex。 


5.3.27 串联 重复 查找 。 在 字符 串 s 中 ， 基 础 字符 串 b 的 串联 重复 就 是 连续 将 b 至 少 重复 两 遍 ( 无 重 春 ) 


的 一 个 子 字符 串 。 开 发 并 实现 一 个 线性 时 间 的 子 字符 串 查 找 算法 ， 接 受 给 定 的 字符 串 b 和 s， 返 
回 s 中 bb 的 最 长 串联 重复 的 起 始 位 置 。 例如, 当 b 为 "abcd" 而 s 为 “abcabcababcababcababcab " 时， 
你 的 程序 应 该 返回 3。 


5.3.28 暴力 子 字符 囊 查 找 算法 中 的 缓冲 区 。 向 你 为 练习 5.3.1 给 出 的 解答 中 添加 一 个 search() 方法 ， 


接受 一 个 ( In 类 型 的 ) 输入 流 作为 参数 并 在 给 定 的 输入 流 查找 模式 字符 串 。 注 意 : 你 需要 维护 
一 个 至 少 能 够 保存 输入 流 的 前 M 个 字符 的 缓冲 区 。 面 临 的 挑战 是 要 编写 高 效 的 代码 为 任意 输入 
流 初始 化 、 更 新 和 清理 缓冲 区 。 


5.3.29 ”Boyer-Moore 算法 中 的 弹 冲 区 。 为 算法 5.7 添加 一 个 search() 方法 ， 接 受 一 个 〈 In 类 型 的 ) 输 


入 流 作为 参数 并 在 给 定 的 输入 流 中 查找 模式 字符 串 。 


5.3.30 二 维 查找 。 实 现 另 一 个 版 本 的 Rabin-Karp 算法 ， 在 二 维 文本 中 查找 模式 ， 假 设 模式 和 文本 都 是 


由 字符 组 成 的 矩形 。 


5.3.31 ”随机 模式 。 在 一 段 绘 定 的 文本 中 查找 一 个 长 度 为 100 的 随机 模式 字符 申 需 要 多 少 次 字符 比较 ? 


答 : 一 次 也 不 用 。 以 下 方法 就 可 以 有 效 的 完成 这 个 任务 : 


public boolean search(char[] txt) 
{ return false; } 


因为 一 个 长 度 为 100 的 随机 模式 字符 串 出 现在 任何 文本 中 的 概率 之 低 足以 让 我 们 认为 它 是 0。 


5.3.32 ”唯一 的 子 字符 串 。 使 用 Rabin-Karp 算法 的 思想 完成 练习 5.2.14。 
5.3.33 随机 素数 。 为 Rabinkarp 类 (算法 58) 实现 


TongRandomPrime() 方法 。 提 示 : 随机 的 ”位 数 
字 是 素数 的 概率 与 1/n 成 正比 。 i ey = -1; 





goto sm; 
goto s0; 


编 语言 ) 支持 一 种 goto 指令 ， 它 使 我 们 能 够 将 查 f Ctxt[i]) 1= 'B' goto s0; 
f (txt[i]) != 'A' goto s2; 


找 “ 柑 入 ”到 机 器 代码 中 ， 如 下 方 的 程序 所 示 ( 这 ‘a 
和 程序 等 价 于 在 KMP 算法 中 用 KMPdfa 数组 模拟 34; 1 Cot》 1 ,人 ,9ore 39 
模式 的 DFA 的 运行 ， 但 效率 要 高 的 多 ) 。 为 了 各 return i-8; 

免 在 每 次 增 大 i 时 检查 是 否 已 经 到 过 文 本 的 结尾 ， 

假设 文本 的 最 后 个 字符 就 是 模式 字符 趾 本 身 。 。 处 理 模式 字符 中 A A 8 A A A 的 直线 型 代码 
在 这 段 代码 中 goro 的 标签 与 dfa[] 数组 完全 一 一 对 应 。 编 写 一 个 静态 方法 接受 一 个 模式 作为 
参数 ， 产 生 一 段 类 似 的 直线 型 代码 来 查找 给 定 的 模式 。 





5.3.35 二 进 制 字符 囊 中 的 Boyer-Moore 算法 。 启 发 式 处 理 不 匹配 的 字符 对 于 二 进 制 字符 串 并 没有 什么 作 


用 ， 因 为 匹配 失败 的 可 能 字符 只 有 两 种 ( 而 且 它们 都 非常 可 能 出 现在 模式 字符 串 中 ) 。 编 写 一 个 
适用 于 二 进 制 字符 串 的 子 字符 串 查 找 类 ， 它 应 该 能 够 将 多 个 位 组 合成 可 以 被 算法 5.7 处 理 的 “ 字 
符 ”。 注 意 : 如 果 你 每 次 都 取 5 位， 那么 需要 一 个 含有 个 元 素 的 right[] 数组 。b 的 值 不 能 太 
大 ， 以 保证 right[] 数组 不 会 太 大 ; 也 不 能 太 小 ， 以 使 文本 中 大 多 数 b 位 字符 不 太 可 能 出 现在 模 
式 中 一 一 模式 中 含有 M-b+1 种 不 同 的 b 位 字符 ( 从 第 1 到 第 M-5+1 位 的 每 个 位 置 上 各 有 一 个 ) ， 


加 译 法 参考 《代码 大 全 》， 第 二 版 第 14 章 。 一 一 译 者 注 
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因此 M-b+1 远 小 于 2。 例如， 如 果 你 选择 的 b 使 得 2 约 等 于 lg(4M)， 那么 right[] 数组 中 超过 
四 分 之 三 的 元 素 的 值 都 将 是 -1。 但 不 要 让 5 小 于 MI2， 否 则 当 模 式 字符 串 横 跨 两 个 5b 位 字符 时 你 
完全 可 能 会 漏 掉 它 。 


图 实验 下 


5.3.36 


5.3.37 


5.3.38 
5.3.39 


随机 文本 。 编 写 一 个 程序 ， 接 受 整 型 参数 M 和 N， 生 成 一 个 长 度 为 N 的 随机 二 进 制 文本 字符 串 ， 
计算 该 字符 中 的 最 后 M 位 在 整个 字符 串 中 的 出 现 次 数 。 注 意 : 不 同 的 M 值 适用 的 方法 可 能 不 同 。 
随机 文本 的 KMP 算法 。 编 写 一 个 用 例 ， 接 受 整 型 参数 M、N 和 T 并 运行 以 下 实验 T 遍 : 随机 生 
成 一 个 长 度 为 M 的 模式 字符 串 和 一 段 长 度 为 N 的 文本 ， 记 录 使 用 KMP 算法 在 文本 中 查找 该 模式 
时 比较 字符 的 次 数 。 修 改 KMP 类 的 实现 来 记录 比较 次 数 并 打印 出 重复 T 次 之 后 的 平均 比较 次 数 。 
随机 文本 的 Boyer-Moore 算法 。 对 于 Boyer-Moore 算法 完成 上 一 道 练习 。 

运行 时 间 。 编 写 一 段 程序 ， 用 本 节 学 习 的 4 种 算法 在 《双城记 》 ( tale.txt) 中 查找 以 下 字符 串 并 
记录 时 间 : 

it is a far far better thing that i do than i have ever done 


讨论 你 的 结果 在 何 种 程度 上 验证 了 正文 对 这 几 种 算法 的 性 能 猜想 。 
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5.4 正则 表达 式 


在 许多 应 用 程序 中 , 我 们 在 查找 子 字符 串 时 并 没有 被 查找 模式 的 完整 信息 。 文 本 编辑 器 的 用 户 
可 能 希望 仅 指定 模式 的 一 部 分 ， 或 是 指定 某 种 能 够 匹配 若干 个 不 同 单词 的 模式 ， 或 是 指定 几 种 可 以 
任意 匹配 的 不 同 模式 。 例 如 ， 生 物 学 家 可 能 希望 在 基因 组 序列 中 寻找 满足 特定 条 件 的 基因 。 本 节 中 ， 
我 们 将 会 学 习 如 何 高 效 地 完成 这 种 类 型 的 模式 匹配 。 

5.3 节 中 的 算法 完全 依赖 指定 完整 的 模式 字符 串 ， 因 此 需要 寻找 不 同 的 方法 。 本 节 将 会 学 习 的 
一 些 基本 工具 能 够 构造 一 个 非常 强大 的 字符 串 查找 程序 ， 它 能 够 在 长 度 为 Y 的 文本 中 匹配 长 度 为 M 
的 复杂 模式 。 在 最 坏 情况 下 ， 它 所 需 的 时 间 和 MN 成 正比 ， 而 在 一 般 的 应 用 程序 中 还 会 快 得 多 。 

首先 ， 我 们 需要 一 种 描述 模式 的 方法 ， 即 一 种 严谨 的 说 明 上 述 “ 部 分 子 字符 串 的 查找 问题 ”的 
方式 。 这 份 说 明 必 须 含有 一 些 比 5.3 节 中 使 用 的 “检查 文本 字符 串 的 第 i 个 字符 和 模式 字符 串 的 第 
j 个 字符 是 否 匹配 ”更 加 强大 的 原始 操作 。 为 此 ， 我 们 使 用 正则 表达 式 。 它 能 够 用 自然 、 简 单 而 强 
大 的 3 种 操作 组 合 来 描述 模式 。 

程序 员 使 用 正则 表达 式 的 历史 已 经 有 数 十 年 了 。 随 着 网 络 搜 索 的 爆炸 性 增长 ， 它 们 的 使 用 变 得 
更 加 广泛 。 本 节 开 始 会 讨论 几 个 应 用 程序 。 这 不 仅 是 为 了 让 你 感受 它 的 用 途 和 功能 ， 也 是 为 了 让 你 
对 它 的 基本 性 质 更 加 熟悉 。 

和 5.3 节 中 的 KMP 算法 一 样 ， 本 节 也 将 使 用 一 种 能 够 在 文本 中 查找 模式 的 抽象 自动 机 来 描述 
这 3 种 基本 的 操作 。 模 式 匹配 算法 同样 会 构造 一 个 这 样 的 自动 机 并 模拟 它 的 运行 。 当 然 ， 这 种 模式 
匹配 自动 机 比 KMP 算法 的 DFA 更 加 复杂 ， 但 不 会 超出 你 的 想象 。 

你 将 会 看 到 ， 我 们 为 模式 匹配 问题 给 出 的 解答 和 计算 机 科学 中 最 基础 的 问题 有 着 紧密 的 联系 。 
例如 ， 我 们 在 程序 中 用 于 完成 给 定 模式 下 的 字符 串 查找 任务 的 算法 和 Java 系统 中 用 来 将 Java 程序 
转化 为 计算 机 上 的 机 器 语言 的 算法 很 相似 。 我 们 还 会 遇 到 非 确定 性 这 个 概念 。 它 在 人 们 对 高 效 算法 
的 追求 中 起 到 了 关键 的 作用 ( 请 见 第 6 章 ) 。 


5.4.1 使 用 正则 表达 式 描述 模式 

我 们 的 重点 是 模式 的 描述 ， 它 由 3 种 基本 操作 和 作为 操作 数 的 字符 组 成 。 这 里 ， 我 们 用 语言 指 
代 一 个 字符 串 的 集合 ( 可 能 是 无 限 的 ) ， 用 模式 指 代 一 -种 语言 的 详细 说 明 。 我 们 将 要 学 习 的 规则 和 
大 家 都 很 熟悉 的 算术 表达 式 中 的 规则 十 分 类 似 。 
5.4.1.1 ”连接 操作 

第 一 种 基本 操作 就 是 5.3 节 中 使 用 过 的 连接 操作 。 当 我 们 写 出 Ag 时 ， 就 指定 了 一 种 语言 {AB}。 
它 含有 一 个 由 两 个 字符 组 成 的 字符 串 ， 由 A 和 B 连接 而 成 。 
5.4.1.2 或 操作 

第 二 种 基本 操作 可 以 在 模式 中 指定 多 种 可 能 的 匹配 。 如 果 我 们 在 两 种 选择 之 间 指 定 了 一 个 或 运 
算 符 ， 那么 它们 都 将 属于 同一 种 语言 。 我 们 用 竖 线 符号 “|” 表 示 这 个 操作 。 例 如 ，A1B 指定 的 语言 
是 {A,B}，AlEIIIOIU 指定 的 语言 是 {A,E,I,0,U}。 连 接 操作 的 优先 级 高 于 或 操作 ， 因 此 AB1BCD 
指定 的 语言 是 {AB, BCD}。 
5.4.1.3 ” 闭 包 操作 

第 三 种 基本 操作 可 以 将 模式 的 部 分 重复 任意 的 次 数 。 模 式 的 闭 包 是 由 将 模式 和 自身 连接 任意 多 
次 (包括 零 次 ) 而 得 到 的 所 有 字符 串 所 组 成 的 语言 。 我 们 将 “*” 标 记 在 需要 被 重复 的 模式 之 后 ， 
以 表示 闭 包 。 闭 包 操作 的 优先 级 高 于 连接 操作 ， 因 此 AB* 指定 的 语言 由 一 个 A 和 0 个 或 多 个 B 的 字 


5.4 正则 表达 式 二 515 


符 串 组 成 ， 而 A*B 指定 的 语言 由 0 个 或 多 个 A 和 一 个 B 的 字符 串 组 成 。 空 字符 串 的 记号 是 E， 它 存 
在 于 所 有 文本 字符 串 之 中 (包括 A* ) 。 
5.4.1.4 括号 

我 们 使 用 括号 来 改变 默认 的 优先 级 顺序 。 例 如 ，CCAC1B)D 指定 的 语言 是 {CACD, CBD}，(A1C) 
《CB1QOD) 指定 的 语言 是 {ABD, CBD,ACD,CCD}，(AB)* 指定 的 语言 是 由 将 AB 连接 任意 多 次 得 到 的 
所 有 字符 串 和 空 字符 串 组 成 的 {€,AB,ABAB, .. .上 

这 些 简单 的 例子 已 经 可 以 写 出 虽然 复杂 但 却 清晰 而 完整 的 描述 某 种 语言 的 正则 表达 式 了 (示例 
请 见 表 5.4.1 ) 。 某 些 语言 可 能 可 以 用 其 他 方式 简单 表述 ， 但 找到 这 些 简单 的 方法 可 能 会 比较 困难 。 
例如 ， 表 格 的 最 后 一 行 中 的 正则 表达 式 指定 的 就 是 (A1B)* 的 一 个 只 含有 偶数 个 B 的 子 集 。 


表 5.4.1 正则 表达 式 举例 






















正则 表达 式 匹配 的 字符 串 不 匹配 的 字符 串 
(CAIB) CCID) AC AD BC BD 其 他 所 有 字符 串 
ACBIO*D AD ABD ACD ABCCBD BCD ADD ABCBC 
A*| (A*BA*BA*)* AAA BBAABB BABAAA ABA BBB BABBAAA 789 























正则 表达 式 都 是 非常 简单 的 形式 语言 对 象 ， 甚 至 比 你 在 小 学 里 学 到 的 算术 表达 式 更 简单 。 我 们 
将 会 利用 它 的 简洁 性 开发 小 巧 而 高 效 的 算法 来 处 理 它们 。 首 先 给 出 如 下 正式 定义 。 


定义 。 一 个 正则 表达 式 可 以 是 : 
口 空 字符 串 €; 
口 单个 字符 ; 
口 包含 在 括号 中 的 另 一 个 正则 表达 式 ; 
口 两 个 或 多 个 连接 起 来 的 正则 表达 式 ; 
口 由 或 运算 符 分 隔 的 两 个 或 多 个 正则 表达 式 ; 
口 由 闭 包 运算 符 标记 的 一 个 正则 表达 式 。 


这 段 定义 描述 了 正则 表达 式 的 语法 ， 说 明了 怎样 才 是 一 个 合法 的 正则 表达 式 。 在 本 节 中 对 给 定 
正则 表达 式 的 非 形式 化 的 描述 是 它 的 语义 。 作 为 复习 ， 我 们 要 继续 在 形式 定义 中 对 它们 进行 总 结 。 


定义 ( 续 ) 。 每 个 正则 表达 式 表示 的 都 是 一 个 字符 囊 的 集合 ， 它 们 的 定义 如 下 所 述 。 

口 空 正则 表达 式 表示 的 字符 串 的 集合 为 空 ， 含 有 0 个 元 素 。 

口 一 个 字符 表示 的 字符 囊 的 集合 含有 一 个 元 素 ， 即 该 字符 本 身 。 

口 一 个 由 括号 和 包含 在 其 中 的 正则 表达 式 组 成 的 正则 表达 式 表示 的 字符 串 的 集合 与 括号 内 
的 正则 表达 式 相同 。 

口 由 两 个 正则 表达 式 连接 起 来 的 正则 表达 式 表示 的 字符 串 的 集合 为 这 两 个 正则 表达 式 分 别 
表示 的 字符 串 集 合 的 又 乘 。 (按照 正则 表达 式 中 指定 的 顺序 ， 由 一 个 字符 串 集 合 中 的 元 
素 和 另 一 个 字符 冲 集合 中 的 元 素 相连 接 所 能 够 组 合 而 成 的 所 有 字符 囊 。 ) 

口 由 或 运算 符 连 接 的 两 个 正则 表达 式 所 表示 的 字符 事 的 集合 为 两 个 正则 表达 式 所 分 别 表示 
的 字符 囊 集合 的 并 集 。 
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口 由 一 个 正则 表达 式 的 闭 包 所 表示 的 字符 串 的 集合 由 E( 空 字符 串 ) 或 将 被 修饰 的 正则 表 
达 式 所 表示 的 字符 串 集合 重复 任意 次 所 得 到 的 所 有 字符 囊 所 组 成 。 


一 般 来 说 ， 给 定 正则 表达 式 所 描述 的 语言 可 能 非常 庞大 ， 甚 至 是 无 限 的 。 描 述 一 种 语言 可 以 有 
许多 中 不 同 的 方法 ， 我 们 必须 尝试 给 出 最 简洁 的 模式 ， 就 像 在 不 断 地 尝试 写 出 简洁 的 程序 和 实现 高 
效 的 算法 一 样 。 


5.4.2 ” 缩 略 写法 

一 般 的 应 用 程序 都 在 基本 规则 的 基础 上 增加 了 各 种 额外 的 规则 ， 以 力求 简洁 地 描述 实际 应 用 中 
所 需要 的 语言 。 从 理论 角度 来 看 ， 它 们 都 只 是 涉及 多 个 操作 数 的 一 系列 操作 的 缩 略 写法 ; 从 实际 角 
度 来 看 ， 它 们 是 对 基本 操作 的 实用 扩展 ， 以 便 能 够 写 出 小 巧 的 模式 。 
5.4.2.1 字符 集 描述 符 

只 用 一 个 或 几 个 字符 来 直接 表示 一 个 字符 集 时 常 能 够 带 来 方便 。 点 “.” 是 一 个 能 够 表示 任意 
字符 的 通配符 。 包 含 在 方 括号 中 的 一 系列 字符 表示 这 些 字符 中 的 任意 一 个 。 这 一 系列 字符 可 以 由 一 
个 范围 来 表示 。 如 果 开头 字符 为 “^”， 这 个 方 括号 表示 的 就 是 任意 非 该 括号 内 的 字符 。 这 些 记 法 
都 是 一 系列 或 操作 的 简写 ， 请 见 表 5.4.2。 





表 5.4.2 字符 集 描述 符 


UU 





名 称 记 法 举 例 
通配符 ’. AB 
指定 的 集合 包含 在 0] 中 的 字符 [AEIOU]* 
范围 集合 包含 在 吕 中 ， 由 “-” 分 隔 [A-Z] [0-9] 
补 集 包含 在 0] 中， 首 字母 为 “^” [AAEIOU]* 
5.4.2.2 ” 闭 包 的 简写 


闭 包 运算 符 表示 将 它 的 操作 数 复制 任意 多 次 。 在 实际 应 用 中 ， 我 们 希望 能 够 灵活 指定 重复 的 次 
数 , 或 者 是 次 数 的 范围 。 我们 用 “+”( 加 号 ) 表示 至 少 复制 一 次 ,“?”( 问号 ) 表示 重复 0 次 或 1 次 ， 
用 写 在 “f}” ( 花 括号 ) 内 的 数 或 者 范围 来 指定 重复 的 次 数 。 和 刚才 一 样 ， 这 些 记 法 也 是 一 系列 基 
本 的 连接 、 或 和 闭 包 操作 的 简写 ， 请 见 表 5.4.3。 


表 5.4.3 闭 包 的 简写 (指定 操作 数 的 重复 次 数 ) 








选 项 记 法 举例 原始 写法 语言 中 的 字符 串 不 在 语言 中 的 字符 串 
至 少 重复 1 次 + (AB)+ (AB) (AB)* AB ABABAB € BBBAAA 
重复 0 或 1 次 ? (AB)? ElAB EAB 所 有 其 他 字符 串 
重复 指定 次 数 由 他 指定 次 数 (AB){3} (AB) (CAB) (AB) ABABAB 所 有 其 他 字符 串 
重复 指定 范围 的 次 数 。 由 {} 指定 范围 A Sasa I(AB) AB ABAB 所 有 其 他 字符 串 
5.4.2.3 ” 转 义 序列 
某 些 字符 , 例如 “VW”、“.”、“|]”、“*”、“(“ 和 ”) ”, 都 是 用 来 构造 正则 表达 式 的 元 字 


符 。 我 们 使 用 以 反 斜 杠 开头 的 转 义 序列 来 将 元 字符 和 字母 表 中 的 字符 区 别 开 来 。 一 个 转 义 序列 可 以 
是 一 个 “\” 加 上 单个 元 字符 (这 就 表示 这 个 字符 本 身 ) 。 例 如 ，“W” 表 示 的 就 是 “\”。 其 他 转 义 
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序列 表示 了 特殊 字符 和 空白 字符 。 例 如 ，“\t” 表 示 一 个 制 表 符 ，“\n” 表 示 一 个 换行 符 ，“\s” 表 
示 任意 空白 字符 。 


5.4.3 ”正则 表达 式 的 实际 应 用 

实际 应 用 已 经 证 明了 正则 表达 式 善于 描述 与 语言 有 关 的 内 容 。 因 此 ， 正 则 表达 式 使 用 广泛 ， 这 
方面 的 研究 也 比较 深入 。 为 了 让 你 能 在 熟悉 正则 表达 式 的 同时 向 你 展示 一 些 它 的 用 途 ， 在 讨论 正则 
表达 式 的 模式 匹配 算法 之 前 先 给 出 一 些 实际 应 用 的 例子 。 正 则 表达 式 在 计算 机 科学 理论 中 也 起 到 了 
重要 的 作用 。 在 本 书 中 完整 说 明 它 的 应 用 范围 不 切实 际 ， 但 会 在 适当 的 地 方 提 到 相关 的 理论 成 果 。 
5.4.3.1 子 字符 串 查找 

我 们 的 总 体 目标 是 开发 一 种 算法 ， 能 够 判定 给 定子 字符 串 是 否 包 含 在 给 定 正则 表达 式 所 描述 的 
字符 串 集合 之 中 。 如 果 文本 包含 在 模式 所 描述 的 语言 之 中 ， 就 称 文本 和 模式 相 匹配 。 正 则 表达 式 的 
模式 匹配 一 般 化 了 5.3 节 中 的 子 字符 串 查 找 问题 。 准 确 地 说 ， 要 在 一 段 文本 txt 中 查找 一 个 子 字符 
串 pat， 就 是 检查 txt 是 否 存在 于 模式 “.*pat.*” 所 描述 的 语言 之 中 。 
5.4.3.2 合法 性 检查 

在 使 用 互联 网 时 ,你 常常 会 遇 到 正则 表达 式 。 当 你 在 某 个 商业 网 站 上 输入 一 个 日 期 或 是 账号 时 ， 
输入 处 理 程 序 会 检查 输入 的 格式 是 否 正确 。 进 行 这 类 检查 的 一 种 方式 是 用 代码 检查 所 有 可 能 出 现 的 
情况 :如 果 你 应 该 输入 一 个 金额 (美元) ， 代 码 就 会 检查 第 一 个 字符 是 否 是 “$”， 而且“$” 之 后 
的 字符 是 否 是 一 组 数字 ， 等 等 。 更 好 的 办 法 是 定义 一 个 正则 表达 式 来 描述 所 有 合法 的 输入 。 之 后 ， 
检查 用 户 的 输入 是 否 合法 就 完全 是 模式 匹配 问题 了 : 输入 是 否 包含 在 正则 表达 式 所 描述 的 语言 之 中 
吗 ? 随 着 这 种 检查 的 广泛 应 用 ， 使 用 正则 表达 式 进行 常见 检查 的 库 在 互联 网 上 已 经 随处 可 见 ， 请 见 
表 5.4.4。 一 般 来 说 ， 相 比 一 个 能 够 检查 所 有 情况 的 程序 ， 正 则 表达 式 是 对 所 有 有 效 字符 串 的 集合 更 
加 准确 和 精炼 的 表达 。 


表 5.4.4 正则 表达 式 的 典型 应 用 简化 版 本 ) 

应 用 场景 正则 表达 式 匹配 
字符 串 查找 |。 .*NEEDLE,* | A HAYSTACK NEEDLE IN 
电话 号 码 \([0-9]{3}NN [0-9]{3}-[0-9]{4} | (800) 867-5309 
Java 标识 符 [$_A-Za-z] [$_A-Za-z0-9]* Pattern_Matcher 
基因 组 | gcg(cgglagg)*ctg gcgaggaggcggcggctg 
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电子 邮件 地 址 [a-z]+@([a-z]+\.)+(edu|com) rs@cs.princeton.edu 





5.4.3.3 程序 员 的 工具 箱 

正则 表达 式 模式 匹配 的 起 源 是 Unix 的 命令 grep， 它 会 打印 出 和 给 定 正则 表达 式 匹 配 的 所 有 输 
人 行 。 这 个 工具 是 数 代 程序 员 的 无 价 之 宝 ， 而 正则 表达 式 也 已 经 被 内 置 于 许多 现代 编程 系统 之 中 ， 
从 awk 和 emacs， 到 Perl、Python 和 Javascript。 例 如 ， 某 个 目录 中 含有 许多 java 文件 ， 而 你 希望 
知道 哪些 文件 使 用 了 StdIn。 这 条 命令 可 以 很 快 给 出 答案 : 

% grep StdIn *.java 

它 会 打印 出 每 个 文件 中 与 “* .StdIn.*” 匹 配 的 每 一 行 代 码 。 
5.4.3.4 ”基因 组 

生物 学 家 也 会 使 用 正则 表达 式 来 研究 重要 的 科学 问题 。 例 如 ， 人 类 的 基因 序列 的 某 个 区 域 可 以 
用 正则 表达 式 gcg(cgg)*ctg 描述 ， 其 中 模式 cgg 的 重复 次 数 在 不 同 的 个 体 之 间 有 很 大 区 别 。 人 们 
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已 知 某 种 能 够 造成 智力 障碍 和 其 他 一 些 症状 的 基因 疾病 和 该 模式 的 高 重复 次 数 有 关 。 
5.4.3.5 搜索 

互联 网 搜索 引擎 都 支持 正则 表达 式 ， 但 可 能 不 是 非常 完整 。 一 般 来 说 ， 如 果 你 希望 通过 “|” 指 
定 其 他 的 匹配 模式 或 者 通过 “*” 产 生 重复 ， 它 都 能 做 到 。 
5.4.3.6 ”正则 表达 式 的 可 能 性 

理论 计算 机 科学 的 第 一 堂 人 门 课程 就 是 找 出 正则 表达 式 所 能 够 指定 的 语言 集合 。 例 如 ， 你 可 能 
会 感到 意外 的 是 ， 正 则 表达 式 能 够 实现 取 余 操 作 : 例如 (0 | 1(01*0)*1)* 描述 的 所 有 由 0 和 1 组 
成 的 字符 串 都 是 3 的 倍数 的 二 进 制 表示 ! 也 就 是 说 ，11、110、1001 和 1100 都 在 这 个 语言 之 中 ， 
而 10、1011 和 10000 都 不 在 。 
5.4.3.7 局 限 

并 不 是 所 有 的 语言 都 可 以 用 正则 表达 式 定义 。 一 个 令 人 深思 的 示例 就 是 不 存在 能 够 描述 所 有 合 
法 正则 表达 式 字符 串 的 集合 的 正则 表达 式 。 这 个 示例 的 简单 版 本 包括 无 法 使 用 正则 表达 式 检查 括号 
是 否 匹配 完整 以 及 检查 字符 串 中 的 A 和 B 的 数量 是 否 一 样 多 。 

这 些 例子 都 只 是 冰山 一 角 。 正 则 表达 式 是 计算 性 基础 设施 中 非常 实用 的 一 部 分 ， 对 于 帮助 我 们 
理解 计算 的 本 质 起 到 了 重要 的 作用 。 和 KMP 算法 一 样 ， 下 面 将 要 描述 的 算法 也 是 在 探索 这 个 理论 
过 程 中 的 副产品 。 


5.4.4” 非 确定 有 限 状 态 自 动机 

我 们 可 以 将 Knuth-Morris-Pratt 算法 看 作 一 台 由 模式 字符 串 构造 的 能 够 扫描 文本 的 有 限 状 态 自 
动机 。 对 于 正则 表达 式 ， 我 们 要 将 这 个 思想 推 而 广 之 。 

KMP 的 有 限 状 态 自动 机 会 根据 文本 中 的 字符 改变 自身 的 状态 。 当 且 仅 当 自动 机 达到 停止 状态 
时 它 才 找 到 了 一 个 匹配 。 算 法 本 身 就 是 模拟 这 种 自动 机 ， 这 种 自动 机 的 运行 很 容易 模拟 的 原因 是 因 
为 它 是 确定 性 的 : 每 种 状态 的 转换 都 完全 由 文本 中 的 字符 所 决定 。 

要 处 理 正则 表达 式 ， 就 需要 一 种 更 加 强大 的 抽象 自动 机 。 因 为 或 操作 的 存在 ， 自 动机 无 法 仅 根 
据 一 个 字符 就 判断 出 模式 是 否 出 现 ; 事实 上 ， 因 为 闭 包 的 存在 ， 自 动机 甚至 无 法 知道 需要 检查 多 少 
字符 才 会 出 现 匹 配 失败 。 为 了 克服 这 些 困 难 ， 我 们 需要 非 确定 性 的 自动 机 : 当面 对 匹配 模式 的 多 种 
可 能 时 ， 自 动机 能 够 “ 猜 出 ”正确 的 转换 ! 你 也 许 会 认为 这 种 能 力 是 不 可 能 的 ， 但 你 会 看 到 ， 编 写 

-个 程序 来 构造 非 确定 有 限 状 态 自动 机 ( NFA ) 并 有 效 模拟 它 的 运行 是 很 简单 的 。 正 则 表达 式 模式 匹 
配 程序 的 总 体 结构 和 KMP 算法 的 总 体 结构 几乎 相同 : 

口 构造 和 给 定 正则 表达 式 相 对 应 的 非 确定 有 限 状 态 自 动机 ; 

口 模拟 NFA 在 给 定 文本 上 的 运行 轨迹 。 

Kleene 定理 是 理论 计算 机 科学 中 的 一 个 重要 结论 ， 它 证 明了 对 于 任意 正则 表达 式 都 存在 一 个 与 
之 对 应 的 非 确 定 有 限 状态 自动 机 ( 反之 亦 然 ) 。 我 们 会 学 习 该 定理 的 证 明 并 演示 如 何 将 任意 正则 表 
达 式 转变 为 一 台 非 确定 有 限 状态 自动 机 ， 然 后 模拟 NFA 的 运行 轨迹 来 完成 模式 匹配 任务 。 

在 学 习 如 何 构造 模式 匹配 的 NFA 之 前 ， 先 来 看 一 个 示例 ， 它 说 明了 NFA 的 性 质 和 操作 。 请 看 
图 5.4.1， 它 所 显示 的 NFA 是 用 来 判断 一 段 文本 是 否 包含 在 正则 表达 式 (CA*B1AC)D) 所 描述 的 语言 
之 中 。 如 这 个 示例 所 示 ， 我 们 所 定义 的 NFA 有 着 以 下 特点 。 

口 长 度 为 W 的 正则 表达 式 中 的 每 个 字符 在 所 对 应 的 NFA 中 都 有 且 只 有 一 个 对 应 的 状态 。NFA 

的 起 始 状态 为 0 并 含有 一 个 〈 虚拟 的 ) 接受 状态 M。 
口 字母 表 中 的 字符 所 对 应 的 状态 都 有 一 条 从 它 指出 的 边 ， 这 条 边 指 向 模式 中 的 下 一 个 字符 所 对 


5.4 正则 表达 式 二 519 


应 的 状态 ( 图 中 的 黑色 的 边 ) 。 

口 元 字符 “(”、“)”、“J” 和“*” 所 对 应 的 状态 至 少 含有 一 条 指出 的 边 ( 图 中 的 红色 的 边 )， 
这 些 边 可 能 指向 其 他 的 任意 状态 。 

口 有 些 状态 有 多 条 指出 的 边 ， 但 一 个 状态 只 能 有 一 条 指出 的 黑色 边 。 








A 
起 始 状态 接受 状态 
图 5.4.1 模式 (CA*B1AC)D) 所 对 应 的 NFA ( 另 见 彩 插 ) 


我 们 约定 将 所 有 的 模式 都 包含 在 括号 中 ， 因 此 NFA 中 的 第 一 个 状态 对 应 的 是 左 括号 ， 而 最 后 
一 个 状态 对 应 的 是 右 括号 ( 并 能 够 转换 为 接受 状态 ) 。 
和 5.3 节 中 的 DFA 一 样 ， 在 NFA 中 也 是 从 状态 0 开始 读 取 文本 中 的 第 一 个 字符 。NFA 在 状态 的 转 
换 中 有 时 会 从 文本 中 读 取 字符 ， 从 左 向 右 一 次 一 个 。 但 它 和 DFA 有 着 一 些 基本 的 不 同 : 
口 在 图 中 ,字符 对 应 的 是 结 点 而 不 是 边 ; 
口 NFA 只 有 在 读 取 了 文本 中 的 所 有 字符 之 后 才能 识别 它 ， 而 DFA 并 不 一 定 需 要 读 取 文本 中 的 
全 部 内 容 就 能 够 识别 一 个 模式 。 
这 些 不 同 并 不 是 关键 一 一 我 们 选择 的 是 最 适合 研究 的 算法 的 自动 机 版 本 。 
现在 的 重点 是 检查 文本 和 模式 是 否 匹 配 一 一 为 了 达到 这 个 目标 ， 白 动机 需要 读 取 所 有 文本 并 到 
达 它 的 接受 状态 。 在 NFA 中 从 一 个 状态 转移 到 另 一 个 状态 的 规则 也 与 DFA 不 同一 一 在 NFA 中 状态 
的 转换 有 以 下 两 种 方式 ， 请 见 图 5.4.2。 
口 如 果 当 前 状态 和 字母 表 中 的 一 个 字符 相对 应 且 文 本 中 的 当前 字符 和 该 字符 相 匹 配 ， 自 动机 可 
以 扫 过 文本 中 的 该 字符 并 ( 由 黑色 的 边 ) 转换 到 下 一 个 状态 。 我 们 将 这 种 转换 称 为 匹配 转换 。 
口 自动 机 可 以 通过 红色 的 边 转 换 到 另 一 个 状态 而 不 扫描 文本 中 的 任何 字符 。 我 们 将 这 种 转换 称 
为 E- 转换 ， 也 就 是 说 它 所 对 应 的 “匹配 ”是 一 个 空 字符 串 e。 





A A A A B D 
0 一 1 一 2 产 3 一 2 一 3 一 2 一 3 一 2 一 3 广 4 一 5 一 8 一 9 一 10 一 11 





匹配 转换 ， 继 续 扫描 下 <- 转 换 : 无 匹配 所 机 了 所 有 六 本 字符 
一 个 字符 并 改变 状态 时 的 状态 转换 并 达到 接受 状态 ;NFA 
识别 了 文本 794| 
1 
图 5.4.2 找到 与 ((A*B | AC)D)NFA 相 匹 配 的 模式 ( 另 见 彩 插 ) 795 











例如 , 假设 输入 为 A A A A B D 并 启动 正则 表达 式 (CA*B1AC)D) 所 对 应 的 自动 机 (起 始 状态 为 0 ) 。 
图 5.4.2 显示 的 一 系列 状态 转换 最 终 到 达 了 接受 状态 。 这 一 系列 的 转换 说 明 输入 文本 是 属于 正则 表达 式 
所 描述 的 字符 串 的 集合 之 中 的 一 即 文本 和 模式 相 匹配 。 按 照 NEA 方 式 ,我 们 称 该 NFA 识别 了 这 段 文本 。 

图 5.4.3 的 例子 说 明了 即使 对 于 类 似 于 A A A A B D 这 种 NFA 本 应 该 能 够 识别 的 输入 文本 ， 
也 可 以 找到 一 个 使 NFA 停 灌 的 状态 转换 序列 。 例 如 ， 如 果 NFA 选择 在 扫描 完 所 有 A 之 前 就 转换 到 
状态 4， 它 就 无 法 再 继续 前 进 了 ， 因 为 离开 状态 4 的 唯一 办 法 是 匹配 B。 这 两 个 例子 说 明了 这 种 自 
动机 的 不 确定 性 。 在 扫描 了 一 个 A 并 到 达 状态 3 之 后 ，NFA 面临 着 两 个 选择 : 它 可 以 转换 到 状态 4， 
或 者 回 到 状态 2。 这 次 选择 或 者 会 使 它 最 终 达到 接受 状态 ( 如 第 一 个 例子 所 示 ) 或 者 进入 停滞 ( 如 
第 二 个 例子 所 示 ) 。NFA 在 状态 1 时 也 需要 进行 选择 ( 是 否 由 E- 转换 到 达 状态 2 或 者 状态 6) 。 
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这 个 例子 说 明了 NFA 和 DFA 之 间 的 关 
键 区 别 : 因为 在 NFA 中 离开 一 个 状态 的 转换 
可 能 有 多 种 ， 因 此 从 这 种 状态 可 能 进行 的 转 
换 是 不 确定 的 一 一 即使 不 扫描 任何 字符 ， 它 
在 不 同 的 时 间 所 进行 的 状态 转换 也 可 能 是 不 
同 的。 要 使 这 种 自动 机 的 运行 有 意义 ， 所 设 
想 的 NFA 必须 能 够 猜测 对 于 给 定 的 文本 进行 
哪 种 转换 ( 如 果 有 的 话 ) 才能 最 终 到 达 接 受 
状态 。 换 句 话说 ， 当 且 仅 当 一 个 NFA 从 状态 
0 开始 从 头 读 取 了 一 段 文本 中 的 所 有 字符 ， 
进行 了 一 系列 状态 转换 并 最 终 到 达 了 接受 状 
态 时 ， 则 称 该 NFA 识别 了 一 个 文本 字符 囊 。 


A A A 
0 一 2 一 3 





4 

一 ~ 无 法 离开 状态 4 
如 果 输 入 为 AAAABD， 
那么 下 一 个 状态 转换 就 猜 错 了 


A 


0 一 一 6 一 ”人 无 站 离开 状态 7 


A A A A -< 
0 一 1 一 2 一 3 一 2 一 3 一 2 一 3 一 2 一 3 一 4 、、 无 法 离 
开 状 态 4 


图 5.4.3 使 得 (CA*B1AC)D) 的 NFA 进入 停滞 的 状 
态 转换 序列 


[5 


相反 ， 当 上 且 仅 当 对 于 一 个 NFA 没有 任何 匹配 
转换 和 €- 转换 的 序列 能 够 扫描 所 有 文本 字符 并 到 达 接 受 状态 时 ， 则 称 该 NFA 无 法 识别 这 段 文本 字 
符 申 。 

和 DFA 一 样 ， 这 里 列 出 所 有 状态 的 转换 即 可 跟踪 NFA 处 理 文本 字符 串 的 轨迹 。 任 意 类 似 的 结 
束 于 最 终 状态 的 转换 序列 都 能 证 明 某 个 自动 机 识别 了 某 个 字符 品 ( 也 可 能 有 其 他 的 证 明 ) 。 但 对 于 
一 段 给 定 的 文本 ， 应 该 如 何 找到 这 样 一 个 序列 呢 ? 对 于 另 一 段 给 定 的 文本 我 们 应 该 如 何 证 明 不 存在 
这 样 一 个 序列 呢 ? 这 些 问题 的 答案 比 你 想象 的 要 简单 ， 即 系统 地 尝试 所 有 的 可 能 性 ! 


5.4.5 ”模拟 NFA 的 运行 

存在 能 够 猜测 到 达 接受 状态 所 需 的 状态 转换 自动 机 的 设想 就 好 像 能 够 写 出 解决 任意 问题 的 程序 
一 样 : 这 看 起 来 很 荒 雇 。 经 过 仔细 思考 ， 你 会 发 现 这 个 任务 从 概念 上 来 说 并 不 困难 : 我 们 可 以 检查 
所 有 可 能 的 状态 转换 序列 ， 只 要 存在 能 够 到 达 接 受 状态 的 序列 ， 我 们 就 会 找到 它 。 
5.4.5.1 自动 机 的 表示 

首先 ， 需 要 能 够 表示 NFA。 选 择 很 简单 : 正则 表达 式 本 身 已 经 给 出 了 所 有 状态 名 (0 到 M 之 间 
的 整数 ， 其 中 M 为 正则 表达 式 的 长 度 ) 。 用 char 数组 re[] 保存 正则 表达 式 本 身 ， 这 个 数组 也 表 
示 了 匹配 的 转换 ( 如 果 re[i] 存在 于 字母 表 中 ,那么 就 存在 一 个 从 1 到 i+1 的 匹配 转换 ) 。E- 转 
换 最 自然 的 表示 方法 当然 是 有 向 图 一 一 它们 都 是 连接 0 到 M 之 间 的 各 个 顶点 的 有 向 边 (图 5.4.4 中 
的 红色 边 ) 。 因 此 ， 我 们 用 有 向 图 G 表示 所 有 €- 转换 。 在 讨论 模拟 的 过 程 之 后 将 讨论 由 给 定 正则 
表达 式 构建 有 向 图 的 任务 。 对 于 上 面 的 例子 ， 它 的 有 向 图 含有 以 下 9 条 边 : 

0 一 11 一 21 一 62 一 33 一 23 一 45 一 88 一 910 一 11 


5.4.5.2 ”NFA 的 模拟 与 可 达 性 
为 了 模拟 NFA 的 运行 轨迹 ， 我 们 会 记录 自动 机 在 检查 当前 输入 字符 时 可 能 遇 到 的 所 有 状态 的 
集合 。 这 里 ， 关 键 的 计算 是 我 们 已 经 熟悉 并 在 算法 4.4 中 解决 的 多 点 可 达 性 问题 。 我 们 会 查找 所 有 
从 状态 0 通过 e- 转换 可 达 的 状态 来 初始 化 这 个 集合 。 对 于 集合 中 的 每 个 状态 ， 检 查 它 是 否 可 能 与 第 
-个 输入 字符 相 匹配 检查 并 匹配 之 后 就 得 到 了 NFA 在 匹配 第 一 个 字符 之 后 可 能 到 达 的 状态 的 集合 。 
这 里 还 需要 向 该 集合 中 加 入 所 有 从 该 集合 中 的 任意 状态 通过 €- 转换 可 以 到 达 的 其 他 状态 。 有 了 这 
个 匹配 了 第 一 个 字符 之 后 可 能 到 达 的 所 有 状态 的 集合 ，e- 转换 有 向 图 中 的 多 点 可 达 性 问题 的 答案 就 
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是 可 能 匹配 第 二 个 输入 字符 的 状态 集合 。 例 如 ， 在 示例 NFA 中 初始 状态 集合 为 {0,1,2,3,4,6}， 
如 果 第 一 个 输入 字符 为 A， 那 么 NFA 通过 匹配 转换 可 能 到 达 的 状态 是 {3,7}， 然 后 它 可 能 进行 3 到 
2 或 3 到 4 的 6 转换， 因此 可 能 与 第 二 个 字符 匹配 的 状态 集合 为 {2,3,4,7}。 重 复 这 个 过 程 直到 
文本 结束 可 能 得 到 两 种 结果 : 
口 可 能 到 达 的 状态 集合 中 含有 接受 状态 ; 
口 可 能 到 达 的 状态 集合 中 不 含有 接受 状态 。 
第 一 种 结果 说 明 存 在 某 种 转换 序列 使 NFA 到 达 接 受 状态 。 第 二 种 结果 说 明 对 于 该 输入 NFA 总 
是 会 停 浅 ， 导 致 匹配 失败 。 使 用 我 们 已 经 实现 了 的 SET 数据 类 型 和 用 于 在 有 向 图 中 解决 多 点 可 达 性 ”[797 
问题 的 DirectedDFS 类 ， 下 面 的 NFA 模拟 代码 只 是 翻译 了 刚才 的 描述 。 你 可 以 用 图 5.4.4 检查 你 
对 这 段 代码 的 理解 ， 它 显示 了 样 例 输入 的 完整 轨迹 。 





0 1 2 3 4 6 : 从 起 始 状态 开始 通过 e- 转 换 能 够 到 达 的 所 有 状态 的 集合 


学 


3 7 : 匹配 A 之 后 到 达 的 状态 的 集合 
0 1 4 


2347: A 各 儿 到 溉 网 泊 兴 拷 素 的 雪人 


。 站 


3 ， 匹配 A A 之 后 到 达 的 状态 的 集合 
o 1 4 
A Net -村 扩 各 可 到 汉 的 所 有 办 直 的 入 全 


5 : 区 配 A A B 之 后 到 达 的 状态 的 集合 
| 3 


5 8 9 : 匹配 A A B 之 后 通过 -转换 能 够 到 达 的 所 有 集合 
希 ，< 让。 条 i SN 


10 : 匹配 A A B D 之 后 到 达 的 状态 的 集合 


1 = 4 EE i A 


10 11 ， 匹配 A A B D 之 后 通过 -转换 能 够 到 达 的 所 有 状态 的 集合 


np 


接受 ! 


图 5.4.4 对 (CA*B1AC)D) 的 NFA 处理 输入 A A B D 的 模拟 
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命题 @。 判 定 一 个 长 度 为 M 的 正则 表达 式 所 对 应 的 NFA 能 否 识别 一 段 长 度 为 N 的 文本 所 需 的 
时 间 在 最 坏 情况 下 和 MN 成 正比 。 


证 了 明 。 对 于 长 度 为 W 的 文本 中 的 每 个 字符 ， 我 们 都 会 遗 历 一 个 大 小 不 超过 M 的 状态 集合 并 在 E- 转 
换 的 有 向 图 中 进行 深度 优先 搜索 。 下 面 即 将 学 习 的 自动 机 的 构造 可 以 证 明 该 有 向 图 中 的 边 数 不 会 超 
过 2M 条 ， 因 此 每 次 深度 优先 搜索 在 最 坏 情况 下 的 运行 时 间 与 MM 成 正比 。 


请 仔细 思考 一 下 这 个 不 同 寻常 的 结果 。 它 在 最 坏 情况 下 的 成 本 为 文本 和 模式 的 长 度 之 积 ， 这 个 
成 本 和 5.3 节 开始 时 学 习 的 最 坏 情况 下 寻找 固定 子 字符 串 的 初级 算法 的 成 本 竟然 是 相同 的 ! 


public boolean recognizes(String txt) 
{。// NFA 是 否 能 够 识别 文本 txt? 
Bag<Integer> pc = new Bag<Integer>(); 
DirectedDFS dfs = new DirectedDFS(G, 0); 
for (int v = 0; v < G.VO; v++) 
if (dfs.marked(v)) pc.add(v); 


for (int i = 0; i < txt.length(O); i++) 

{ // 计算 txt[i+1] 可 能 到 达 的 所 有 NFA 状 态 
Bag<Integer> match = new Rag<Integer>(); 
for (int v : pc) 

if Cv<M 
if (re[v] == txt.charAt(i) || re[v] == '.') 
match.add(v+1); 
pc = new Bag<Integer>(); 
dfs = new DirectedDFS(G, match); 
for (int v= 0; Vv < G.VO; v++) 
if (dfs.marked(v)) pc.add(v); 


} 


for (int v : pc) if (v == M) return true; 
return false; 


使 用 NFA 模 拟 的 模式 匹配 


5.4.6 ”构造 与 正则 表达 式 对 应 的 NFA 

根据 正则 表达 式 和 大 家 所 熟悉 的 算术 表达 式 的 相似 性 ， 你 肯定 不 会 惊讶 于 将 正则 表达 式 转化 为 
NEA 的 过 程 在 某 种 程度 上 类 似 于 1.3 节 中 使 用 Dijkstra 的 双 栈 算法 对 表达 式 求 值 的 过 程 。 这 两 个 过 
程 的 不 同 之 处 在 于 : 

口 正则 表达 式 中 的 连接 操作 并 没有 运算 符 ; 

口 正则 表达 式 的 闭 包 (* ) 是 一 个 一 元 运算 符 ; 

口 正则 表达 式 只 有 一 个 二 元 运算 符 ， 即 或 (|) 。 

我 们 不 会 在 两 者 的 不 同和 相似 之 处 深究 ,而 是 会 学 习 一 种 为 正则 表达 式 量 身 定做 的 实现 。 例 如 ， 
这 里 只 需要 一 个 栈 ， 而 不 是 两 个 。 

根据 上 一 小 节 开 头 讨论 的 NFA 表示 ， 这 里 只 需要 构造 一 个 由 所 有 €- 转换 组 成 的 有 向 图 6。 正 
则 表达 式 本 身 和 本 节 开 头 学 习 过 的 形式 定义 足以 提供 所 需 的 所 有 信息 。 根 据 Dijkstra 的 算法 ， 我 们 
会 使 用 一 个 栈 来 记录 所 有 左 括号 和 或 运算 符 的 位 置 。 
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5.4.6.1 连接 操作 

对 于 NFA， 连 接 操 作 是 最 容易 实现 的 了 。 状 态 的 匹配 转换 和 字母 表 中 的 字符 的 对 应 关系 就 是 连 
接 操作 的 实现 。 
5.4.6.2 括号 

我 们 要 将 正则 表达 式 字符 串 中 所 有 左 括号 的 索引 压 入 栈 中 。 每 当 我 们 遇 到 一 个 右 括号 ， 我 们 最 
终 都 会 用 后 文 所 述 的 方式 将 左 括号 从 栈 中 弹出 。 和 Dijkstra 算法 一 样 ， 栈 可 以 很 自然 地 处 理 嵌 套 的 
括号 。 
5.4.6.3 闭 包 操作 

闭 包 运算 符 (* ) 只 可 能 出 现在 (i) 单个 字符 之 后 ( 此 时 将 在 该 字符 和 “*” 之 间 添 加 相互 指向 
的 两 条 e- 转换 ) ,或 者 是 (ii) 右 括号 之 后 ， 此 时 将 在 对 应 的 左 括号 ( 即 栈 顶 元 素 ) 和 “*” 之 间 添 
加 相互 指向 的 两 条 e- 转换 。 
5.4.6.4 “或 ”表达 式 

在 形 如 (A1B) 的 正则 表达 式 中 , A 和 B 也 都 是 正则 表达 式 。 我 们 的 处 理 方式 是 添加 两 条 6- 转换 ， 
一 条 从 左 括号 所 对 应 的 状态 指向 B 中 的 第 一 个 字符 所 对 应 的 状态 ， 另 一 条 从 “|” 字 符 所 对 应 的 状态 
指向 右 括号 所 对 应 的 状态 。 将 正则 表达 式 字符 串 中 “|” 运 算 符 的 索引 ( 以 及 如 上 文 所 述 的 左 括号 的 
索引 ) 压 人 栈 中 ， 这 样 在 到 达 右 括号 时 这 些 所 需 信息 都 会 在 栈 的 顶部 。 这 些 e- 转换 使 得 NFA 能 够 
在 这 两 者 之 间 进 行 选择 。 此 时 并 没有 像 平常 一 样 添加 一 条 从 “|” 运 算 符 所 对 应 的 状态 到 下 一 个 字符 

所 对 应 的 状态 的 €- 转换 一 一 NFA 离开 “或 ” 运 


ee 算 符 的 唯一 方式 就 是 通过 某 种 状态 转换 到 达 右 
OED 括号 所 对 应 的 状态 。 

G.addEdge(i, 1+1); 这 些 简单 的 规则 足以 构造 任意 复杂 的 正则 

oe he 表达 式 所 对 应 的 NFA。 算 法 5.9 实现 了 这 些 规 

闭 包 表达 式 则 。 它 的 构造 函数 创建 了 给 定 正 则 表达 式 所 对 


1, i 应 的 -转换 有 向 图 。 该 算法 处 理 样 例 的 轨迹 如 
人 图 5.47 所 示 。 图 5.45、 图 5.4.6 和 练习 中 给 出 


i 了 一 些 其 他 的 例子 ， 我 们 也 希望 你 自己 通过 更 


G.addEdge(i+1, 1p); 多 的 示例 加 深 对 这 个 过 程 的 理解 。 为 了 实现 的 
“或 ”操作 表达 式 简洁 和 清晰 ， 我 们 将 一 些 实现 细节 ( 处 理 元 字 
了 和 符 、 字 符 集 描述 符 、 闭 包 的 缩 略 写法 和 多 向 “或 


SS 运算 等 ) 留 做 了 练习 《请 见 练习 54.16 和 统 习 


GC.addEdge(1p, or+1); 5.4.21) 。 在 没有 这 些 扩展 的 情况 ，NFA 构造 
ee 过 程 所 需 的 代码 非常 少 ， 是 我 们 所 见 过 的 最 巧 
图 5.4.5 ”NEFA 的 构造 规则 妙 的 算法 之 一 。 


< 
3 


图 5.4.6 模式 (.*AB((C1D*E)F)*G) 所 对 应 的 NFA 





CDr-O-O-G 








800| 














801 








524 第 5 章 字 符 囊 








802| 








算法 5.9 ”正则 表达 式 的 模式 匹配 (grep) 





public class NFA 


{ 


} 


private char[] re; // 匹配 转换 
private Digraph G; // epsilon 转 接 
private int M; // 状态 数量 


public NFACString regexp) 
人 // 根据 给 定 的 正则 表达 式 构造 NFA 


Stack<Integer> ops = new Stack<Integer>O; 
re = regexp.toCharArray(); 

M = re.length; 

G = new Digraph(M+1); 


for (int 1 = 0; i < M; i++) 
{ 
int 1p = 1; 
if (re[i] == 'C" || re[li] == "1') 
ops.push(i); 
else if (re[i] == ')') 
{ 
int or = ops.popO; 
if (re[or] == "1') 
{ 
lp = ops.popO; 
G.addEdge(lp, or+1); 
G.addEdge(or, 1); 
} 
else lp = or; 
} 
if (i < M-1 && re[i+1] == '*') // 查看 下 一 个 字符 
{ 
G.addEdge(lp, i+1); 
G.addEdge(i+1, 1p); 
} 
if (re[i] 一“(' || re[i] == '*" || re[li] == ')') 
GCG.addEdge(i, i+1); 
} 


public boolean recognizes(String txt) 
// NFA 是 否 能 够 识别 文本 txt? (请 见 5.4.5.2 节 框 注 “使 用 NFA 模 拟 的 模式 匹配 ” ) 


该 构造 函数 根据 给 定 的 正则 表达 式 构造 了 对 应 的 NFA 的 e- 转换 有 向 图 。 





命题 R。 构 造 和 长 度 为 M 的 正则 表达 式 相对 应 的 NFA 所 需 的 时 间 和 空间 在 最 坏 情况 下 与 M 成 


正比 。 


证 明 。 对 于 长 度 为 好 的 正则 表达 式 中 的 每 个 字符 ， 最 多 会 添加 三 条 E- 转换 并 可 能 执行 一 到 两 
次 栈 操作 。 


EE EE EE 


EE 


rv 


[一 








[一 =- 医 
© 
O 
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@- 
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人 一 
区 
©- 
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©- 
站 
/SN)- 
Se 
8- 
OO 





图 5.4.7 构造 正则 表达 式 (A*B|AC)D) 所 对 应 的 NFA 


模式 匹配 的 经 典 用 例 GREP 的 代码 如 后 面 框 注 所 示 。 它 接受 一 个 正则 表达 式 为 参数 并 能 够 打印 
出 标准 输入 中 含有 属于 正则 表达 式 所 描述 的 语言 的 子 字符 囊 的 所 有 行 。 这 个 程序 是 Unix 早期 实现 
中 的 一 项 特性 并 已 经 成 为 数 代 程序 员 不 可 缺少 的 工具 。 
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% more tinyL.txt 


AC 
AD 
AAA 
public class GREP A 
ADD 
public static void main(String[] args) 请 
{ ABCCBD 
String regexp = "C.*" + args[0] + ".*)"; NAA 
NFA nfa = new NFACregexp)’; BABBAAA 
while (StdIn.hasNextLine()) 
{ % java GREP "CA*BIACOD" < tinyL. 
String txt = StdIn.hasNextLineO; txt 
if (nfa.recognizes(txt)) ABD 
StdOut .printlnCtxt); ABCCBD 
1 % java GREP StdIn < GREP.java 
} while (StdIn.hasNextLine()) 
String txt = StdIn。 
hasNextLineO; 
经 典 的 一 般 正则 表达 式 模式 匹配 (CREP) NFA 的 用 例 
图 答 经 


问 空 (nu11) 和 € 有 什么 区 
答 前 者 表示 一 个 空 集 ， 














5.4.1 


5.4.2 


5.4.3 
5.4.4 
5.4.5 
5.4.6 


5.4.7 


7 
表示 一 个 空 字 符 事 。 你 可 以 构造 一 个 只 有 一 个 元 素 e 的 集合 ， 而 显然 这 个 











给 出 能 够 描述 含有 以 下 字符 的 所 有 字符 串 的 正则 表达 式 : 

口 4 个 连续 的 A 

口 最 多 4 个 的 连续 的 A 

口 1 到 4 个 连续 的 A 

用 自然 语言 简略 的 描述 以 下 正则 表达 式 : 

A 

b.A.*A | A 

C. .*ABBABBA.* 

di .AAsA. A 

一 个 使 用 M 个 或 运算 符 且 不 使 用 闭 包 的 正则 表达 式 最 多 能 够 描述 多 少 个 不 同 的 字符 串 ? ( 可 以 使 
用 连接 操作 和 括号 。 ) 

夯 出 模式 (CCA1B)*1CD*1EFG)*)* 所 对 应 的 NFA。 

画 出 练习 5.4.4 的 NFA 的 E- 转 换 有 向 图 

对 于 输入 ABBACEFGEFGCAAB， 给 出 练习 5.4.4 的 NFA 中 每 次 匹配 转换 和 E- 转换 
之 后 可 达 的 状态 集合 。 

将 5.4.6.4 节 框 注 “ 经 典 的 一 般 正 则 表达 式 模式 匹配 ( GREP ) NFA 的 用 例 ” 中 的 GREP 修改 为 
GREPmatch， 将 模式 用 括号 包 庄 起 来 但 不 在 模式 两 端 加 上“:*”。 这 样 程序 就 只 会 打出 属于 给 定 
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正则 表达 式 所 描述 的 语言 的 输入 行 字符 串 。 给 出 以 下 命令 的 结果 。 
a.% java GREPmatch "(A1B)(CID)”< tinyL.txt 
b.% java GREPmatch "A(CB1C)*D”< tinyL.txt 
c.% java GREPmatch "(A*B1AC)D”< tinyL.txt 
5.4.8 用 正则 表达 式 描述 以 下 二 进 制 字符 串 的 集合 。 
a. 含有 至 少 3 个 连续 的 1 
b. 含有 子 字符 串 110 
c. 含有 子 字符 串 1101100 
d. 不 含有 子 字符 串 110 806 
5.4.9 用 一 个 正则 表达 式 描述 至 少 含有 两 个 0 但 不 含有 任何 连续 的 0 的 二 进 制 字符 串 。 
5.4.10 ”用 正则 表达 式 描述 以 下 二 进 制 字符 串 的 集合 。 
a. 至 少 含有 3 个 字符 ， 且 第 三 个 字符 为 0 
b. 字符 串 中 的 0 的 个 数 为 3 的 倍数 
c. 起 止 字符 相同 
d. 长度 为 奇数 
e. 首 字母 为 0 且 长 度 为 奇数 ， 或 者 首 字母 为 1 且 长 度 为 偶数 
下 长 度 在 1 到 3 之 间 
5.4.11 对 于 以 下 正则 表达 式 ， 计 算 有 多 少 个 长 度 正好 为 1000 的 二 进 制 字符 串 和 它们 匹配 。 
a. 0(0 | D*1 
b. 0*101* 
c.(1 | OD* 
5.4.12 为 以 下 应 用 写 出 Java 的 正则 表达 式 。 
a. 电话 号 码 ， 例 如 (609) 555-1234 
b. 社会 保险 号 ， 例 如 123-45-6789 
.日 期 例如 December 31, 1999 
dd. 形 如 ab.e.d 的 人 P 地 址 ， 其 中 每 个 字符 都 表示 着 一 个 可 能 是 1 位 、2 位 或 者 3 位 的 数字 ， 
例如 196.26.155.241 
e. 车 牌号 ， 前 4 个 字符 为 数字 ， 最 后 2 个 字符 为 大 写字 母 807 


























图 提高 三 


5.4.13 ”有 难度 的 正则 表达 式 。 使 用 二 值 字母 表 的 正则 表达 式 描述 以 下 字符 串 的 集合 。 
a. 除 了 11 和 111 的 所 有 字符 串 
b. 奇数 位 数字 为 1 的 所 有 字符 串 
c. 至 少 含有 两 个 0 和 至 多 含有 一 个 1 的 所 有 字符 串 
d 不 存在 连续 两 个 1 的 所 有 字符 串 
5.4.14 二进制 数 的 可 整除 性 。 使 用 正则 表达 式 描述 以 下 二 进 制 字符 串 使 得 其 对 应 的 整数 能 够 满足 以 下 
条 件 。 
a. 被 2 整除 
b. 被 3 整除 
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c. 被 123 整除 

5.4.15 单 层 正 则 表达 式 。 构 造 一 个 Java 的 正则 表达 式 来 描述 所 有 二 值 字母 表 的 合法 正则 表达 式 字符 串 
的 集合 , 字符 串 不 含有 嵌 套 的 括号 。 例如，(.*1)* 和 (1.*0)* 都 是 这 个 语言 中 的 字符 串 , 但 (1(0 
或 者 DD* 不 是 。 

5.4.16 多 向 “或 ”运算 。 为 NFA 实现 多 向 “或 ”运算 。 代 码 为 模式 (.*ABCCCID1E)F)*G) 生成 的 自动 
机 应 该 如 图 5.4.8 所 示 。 


< A 060 


图 5.4.8 模式 (.*AB((C1D1E)F)*G) 所 对 应 的 NFA 


5.4.17 通配符 。 为 NFA 添加 处 理 通配符 的 能 力 。 

5.4.18 ”至 少 重复 一 次 。 为 NFA 添加 处 理 闭 包 的 “+” 运 算 符 的 能 力 。 

5.4.19 ”指定 重复 次 数 。 为 NFA 添加 处 理 指定 重复 次 数 的 能 力 。 

5.4.20 ”范围 描述 符 。 为 NFA 添加 处 理 指定 重复 范围 的 能 力 。 

5.4.21 补 集 。 为 NFA 添加 处 理 补 集 描述 符 的 能 力 。 

5.4.22 证明。 开发 一 个 新 版 本 的 NFA， 使 它 能 够 打印 一 份 证 明 ， 指 出 给 定 字符 串 包含 在 NFA 能 够 识别 
的 语言 之 中 ( 即 终止 于 接受 状态 的 一 系列 状态 转换 ) 。 
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5.5 ”数据 压缩 


这 个 世界 充满 了 数据 ， 而 能 够 有 效 表 达 数据 的 算法 在 现代 计算 机 基础 架构 中 有 着 重要 的 地 位 。 
压缩 数据 的 原因 主要 有 两 点 : 节省 保存 信息 所 需 的 空间 和 节省 传输 信息 所 需 的 时 间 。 尽 管 科 技 在 发 
展 ， 但 是 这 两 点 的 重要 性 并 没有 发 生变 化 ， 如 今 任何 需要 更 大 存储 空间 或 是 长 时 间 等 待 下 载 任务 完 
成 的 人 都 会 意识 到 数据 压缩 的 重要 性 。 

当 你 在 处 理 数字 图 像 、 声 音 、 电 影 和 其 他 各 种 数据 时 ， 就 已 经 在 与 数据 压缩 打交道 了 。 我 们 将 会 
学 习 的 算法 之 所 以 能 够 节省 空间 ， 是 因为 大 多 数 数据 文件 都 有 很 大 的 元 余 : 例如 ， 文 本 文件 中 有 些 字 
符 序列 的 出 现 频率 远 高 于 其 他 字符 串 ， 用 来 将 图 片 编码 的 位 图 文件 中 可 能 有 大 片 的 同 质 区 域 ， 保 存 数 
字 图 像 、 电 影 、 声 音 等 其 他 类 似 信号 的 文件 都 含有 大 量 重复 的 模式 。 

我 们 将 会 讨论 广泛 应 用 的 一 种 初级 的 算法 和 两 种 高 级 的 算法 。 这 些 算法 的 压缩 效果 可 能 有 
所 不 同 ， 取 决 于 输入 的 特征 。 文 本 数据 一 般 都 能 节省 20% ~ 50% 的 空间 ， 某 些 情况 下 能 够 达到 
50% ~ 90%。 你 将 会 看 到 ， 任 何 数据 压缩 算法 的 效果 都 十 分 依赖 于 输入 的 特征 。 注 意 ， 本 书 中 ,我 
们 在 提 到 性 能 的 时 候 一 般 指 的 都 是 时 间 ; 而 对 于 数据 压缩 ， 性 能 指 代 的 是 算法 的 压缩 率 ， 当 然 也 会 
考虑 压缩 的 用 时 。 

从 另 一 方面 来 说 ， 现 在 的 数据 压缩 技术 并 没有 以 前 那么 重要 了 ， 因 为 计算 机 的 存储 设备 的 成 本 已 
经 大 幅度 降低 ， 普 通用 户 拥有 的 存储 空间 比 以 前 要 多 得 多 。 但 是 ， 现 在 数据 压缩 技术 也 比 任何 时 候 都 
更 重要 ， 因 为 现在 存储 的 数据 更 多 了 ， 因 此 数据 压缩 能 够 节省 的 空间 也 就 更 大 了 。 事 实 上 ， 随 着 互联 
网 的 出 现 ， 数 据 压缩 得 到 了 更 加 广泛 的 应 用 ， 因 为 它 是 减少 传输 大 量 数据 所 需 时 间 的 最 经 济 的 办 法 。 

数据 压缩 有 着 丰富 的 历史 积淀 (我们 只 会 作 简要 的 介绍 ) ， 而 它 在 未 来 世界 中 扮演 的 角色 将 会 
更 加 重要 。 所 有 人 都 能 从 数据 压缩 算法 的 学 习 中 得 到 益处 ， 因 为 这 些 算法 都 非常 经 典 、 优 雅 、 有 趣 
而 高 效 。 


5.5.1 游戏 规则 

现代 计算 机 系统 中 处 理 的 所 有 类 型 的 数据 都 有 一 个 共同 点 : 它们 最 终 都 是 用 二 进 制 表示 的 。 我 们 
可 以 将 它们 都 看 成 一 串 比特 (或 者 字 节 ) 的 序列 。 简 单 起 见 ， 本 节 中 使 用 比特 流 这 个 术语 表示 比特 的 
序列 ， 用 字 节 流 这 个 术语 表示 可 以 看 作 固定 大 小 的 字 节 序列 的 比特 序列 。 比 特 流 或 字 节 流 可 以 是 保存 
在 计算 机 中 的 文件 ， 也 可 以 是 互联 网 上 传输 的 一 条 消息 。 
基础 模型 

数据 压缩 的 基础 模型 非常 简单 ( 请 见 图 5.5.1 ) 。 它 由 两 个 主要 的 部 分 组 成 ， 两 者 都 是 一 个 能 
够 读 写 比特 流 的 黑 盒子 

口 压缩 金 ， 能 够 将 一 个 比特 流 B 转化 为 压缩 后 的 版 本 C(B); 

口 展开 爹 ， 能 够 将 C(B) 转化 回 B。 

如 果 使 用 |B| 表示 比特 流 中 比特 的 数量 的 话 ， 我 们 感 兴趣 的 是 将 |C(BJWIB| 最 小 化 ， 这 个 值 被 称 
为 压缩 率 









压缩 展开 
比特 流 B < 压缩 后 的 版 本 C(B) 原 比特 流 B 
onollolol. .一 一 -Laoaoo 1] 





i 


图 5.5.1 数据 压缩 的 基础 模型 
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这 种 模型 叫做 无 损 压缩 模型 一 一 保证 不 丢失 任何 信息 ， 即 压缩 和 展开 之 后 的 比特 流 必须 和 原始 
的 比特 流 完全 相同 。 许 多 种 类 型 的 文件 都 会 用 到 无 损 压缩 ， 例 如 数值 数据 或 者 可 执行 的 代码 。 对 于 
某 些 类 型 的 文件 ( 例如 图 像 、 视 频 和 音乐 ) ， 有 损 的 压缩 方法 也 是 可 以 接受 的 ， 此 时 解码 器 所 产生 
的 输出 只 是 与 原 输入 文件 近似 。 有 损 压 缩 算法 的 评价 标准 不 仅 是 压缩 率 ， 还 包括 主观 的 质量 感受 。 
在 本 书 中 不 会 讨论 有 损 压 缩 算法 。 


5.5.2 ” 读 写 二 进 制 数据 

完整 描述 计算 机 上 信息 的 编码 方式 取决 于 系统 ， 这 超出 了 本 书 的 讨论 范围 。 但 我 们 可 以 通过 几 
个 基本 的 假设 和 两 个 简单 的 API 来 将 实现 与 这 些 细节 隔离 开 来 。BinaryStdIn 和 BinaryStdOut 这 
两 份 API 来 自 于 我 们 一 直 在 使 用 的 StdIn 和 Stdout， 但 它们 的 作用 是 读 取 和 写 人 比特 ， 而 StdIn 和 
Stdout 面向 的 是 由 Unicode 编码 的 字符 流 。StdOut 上 的 一 个 int 值 是 一 串 字符 ( 它 的 十 进 制 表示 ) ; 
BinaryStdOut 上 的 一 个 int 值 是 一 串 比特 ( 它 的 二 进 制 表示 ) 。 
5.5.2.1 二 进 制 的 输入 输出 

今天 ， 大 多 数 系统 的 输入 输出 系统 ， 包 括 Java， 都 是 基于 8 位 的 字 节 流 ， 因 此 我 们 的 APL 也 许 应 
该 读 写字 节 流 ， 以 和 原始 数据 类 型 内 部 表示 的 输入 输出 格式 相 匹配 ， 将 8 位 的 char 编码 为 1 个 字 节 ， 
16 位 的 short 编码 为 2 个 字 节 ，32 位 的 int 编码 为 4 个 字 节 ， 等 等 。 因 为 比特 流 是 数据 压缩 的 主要 抽 
象 层次 ， 这 就 需要 更 进一步 ， 允 许 用例 读 写 单个 的 比特 以 及 原始 类 型 的 数据 。 我 们 的 目标 是 尽量 减少 用 
例 需 要 进行 的 类 型 转换 并 按照 操作 系统 的 要 求 表示 数据 。 表 5.5.1 中 的 API 从 标准 输入 中 读 取 比特 流 。 


表 5.5.1 从 标准 输入 读 取 比特 流 的 静态 方法 的 API 
public class BinaryStdin 





boolean readBoolean() 读 取 1 位 数据 并 返回 一 个 boolean 值 
char readCharO 读 取 8 位 数据 并 返回 一 个 char 值 
char readCharCint r) 读 取 r ( 1~16 ) 位 数据 并 返回 一 个 char 值 
[适用 于 byte (8 位 ) 、short (16 位 ) 、int (32 位 ) 以 及 1ong 和 double (64 位 ) 的 类 似 方法 ] 
boolean isEmpty() 比特 流 是 否 为 空 
void closeO) 关闭 比特 流 


和 StdIn 明显 不 同 的 是 ， 这 份 抽象 API 的 一 个 关键 特性 在 于 标准 输入 中 的 数据 并 不 一 定 
是 与 字 节 边界 对 齐 的 。 如 果 输 入 流 只 含有 一 个 字 节 ， 用 例 可 以 一 个 比特 一 个 比特 地 调用 8 次 
readBoolean() 方法 读 取 它 。 虽 然 close() 方法 并 不 十 分 重要 ， 但 为 了 能 够 终止 输入 ， 用 例 应 该 
使 用 closeQ 方法 表示 不 会 再 读 取 任何 数据 。 和 StdIn 与 Stdout 一 样 ， 使 用 表 5.5.2 中 的 补充 
API 来 向 标准 输出 写 人 比特 流 。 


表 5.5.2 向 标准 输出 中 写 入 比特 流 的 静态 方法 的 API 
public class BinaryStdOut 











void write(boolean b) 写 人 指定 的 比特 
void writeCchar c) 写 人 指定 的 8 位 字符 
void write(char c，int r) 写 入 指定 字符 的 低 r (1~16) 位 


[适用 于 byte (8 位 ) 、short (16 位 ) 、int (32 位) 以 及 1ong 和 double (64 位 ) 的 类 似 方法 ] 
void closeO 关闭 比特 流 
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对 于 输出 ，close() 方法 就 很 重要 了 : 用 例 必须 使 用 close() 方法 保证 之 前 调用 write() 方 
法 处 理 的 所 有 数据 都 写 人 比特 流 ， 比 特 流 的 最 后 一 个 字 节 必须 用 0 补 齐 以 保证 和 文件 系统 的 兼容 性 。 
StdIn 与 StdOut 有 In 与 Out 这 两 份 API 与 之 关联 ， 这 里 也 通过 BinaryIn 和 BinaryOut 直接 使 
用 二 进 制 编码 的 文件 。 
5.5.2.2 举例 

以 下 是 一 个 简单 的 示例 ， 假 设 你 用 一 个 数据 结构 将 日 期 表示 为 3 个 int 值 (月 、 日 、 
年 ) 。 使 用 Stdout 将 这 些 值 以 12/31/1999 的 格式 输出 需要 10 个 字符 ， 也 就 是 80 位 。 如 果 用 
BinaryStdOut 直接 输出 这 些 值 则 需要 96 位 ( 每 个 int 值 32 位 ) ; 如 果 用 byte 值 来 表示 月 和 日 ， 
用 short 值 表示 年 ， 输 出 将 只 有 32 位 。 如 果 使 用 Binarystdout， 可 以 只 用 4 位 、5 位 和 12 位 的 
3 个 域 ,输出 总 共 21 位 ， 请 见 图 5.5.2 ( 实际 上 是 24 位 ， 因 为 文件 必须 是 完整 的 8 位 字 节 ， 因 此 
close0 方法 会 在 末尾 添加 三 个 0 位 。 ) 注意 :这 是 最 粗 烽 的 数据 压缩 方式 。 


字符 流 (StdOut) 
StdOut.print(month + "/" + day + "/" + year); 
00110001001100100010111100110111001100010010111100110001 00111001 0011100100111001 

I ; 7 T 7 7 5 9 aofr 
3 个 int 值 (BinaryStdOut) 8 位 ASCII 码 表示 的 '9， 


BinaryStdOut.writeCmonth); 
BinaryStdOut .write(day) ; 






























































BinaryStdOut .write(year); 32 位 整数 表示 的 31 
,900000000000000000000000000011003000000000000000000000000001111100000000000000000000011111001117 
喜 到 E23 96 位 

2 个 char 值 和 1 个 short 值 (BinaryStdOut) 。 一 个 4 位 、 一 个 5 位 和 一 个 12 位 的 3 个 域 (BinaryStdOut) 
BinaryStdout,write(Cchar) month); BinaryStdOut .writeCmonth, 4); 
BinaryStdOut.write(Cchar) day); BinaryStdOut .write(day, 5); 
BinaryStdOut .write((short) year); BinaryStdOut .write(year, 12); 
100001100000111110000011111001111 110011111011111001111 

下 二 ~ 和 9。 21 位 (关闭 时 会 为 了 对 齐 补充 3 位 ) 


图 5.5.2 ”向 标准 输出 中 写 人 一 个 日 期 的 4 种 方法 


5.5.2.3 二进制 转 储 
在 调试 的 时 候 ,我 们 应 该 如 何 检查 比特 流 或 者 字 节 流 的 内 容 呢 ? 早期 的 程序 员 面临 着 这 个 问题 ， 

因为 当时 寻找 bug 的 唯一 方式 就 是 检查 内 存 中 的 每 个 比特 。 转 储 (dump ) 这 个 词 从 计算 机 的 早期 一 
直 沿 用 下 来 ， 表 示 的 是 比特 流 的 一 种 可 供 人 类 阅读 的 形式 。 如 果 你 试图 用 一 个 编辑 器 来 打开 一 个 二 
进 制 文件 , 或 者 用 文本 方式 察看 一 个 二 进 制 文件 的 内 容 (或 者 运行 一 个 使 用 Binarystdout 的 程序 ) ， 
那 会 看 到 一 团 乱码 ， 内 容 取决 于 使 用 的 系统 。BinaryStdIn 可 以 避 开 对 系统 的 依赖 性 ， 允许 我 们 编 
写 自己 的 程序 来 将 比特 流转 化 为 标准 工具 能 够 处 理 的 内 容 。 例 如 ， 下 页 框 注 所 示 的 程序 BinaryDump 
调用 了 BinaryStdIn， 将 标准 输入 中 的 比特 按照 0 和 1 的 形式 打印 出 来 。 在 处 理 小 规模 输入 时 这 个 
程序 是 一 个 很 有 用 的 调试 工具 。 类 似 的 工具 HexDump 可 以 将 数据 组 织 成 8 位 的 字 节 并 将 它 打印 为 各 
表示 4 位 的 两 个 十 六 进 制 数 。 用 例 PictureDump 可 以 用 Picture 对 象 表示 比特 ， 其 中 白色 像素 表示 
0， 黑 色 像素 表示 1。 你 可 以 从 本 书 的 网 站 上 下 载 BinaryDump 、HexDump 和 PictureDump， 请 见 图 
5.3.3。 我 们 一 般 会 用 管道 和 重 定向 等 方式 在 命令 行 处 理 二 进 制 文件 ， 将 编码 器 的 输出 通过 管道 传递 
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给 BinaryDump 、HexDump 或 者 PictureDump， 或 者 将 它 重 定向 到 一 个 文件 之 中 。 


public class BinaryDump 


public static void main(String[] args) 


{ 
int width = Integer.parseInt(args[0]); 
int cnt; 
for (cnt = 0; !BinaryStdIn.isEmpty(O); cnt++) 
if (width == 0) continue; 
if (cnt 1= 0 && cnt % width == 0) 
Std0ut.printlnO; 
if (BinaryStdIn. readBoolean()) 
StdOut .print("1"); 
else StdOut.print("0"); 
} 
StdOut .print1InO; 
StdOut.printlnCcnt + " bits"); 
} 
} 
将 比特 流 打印 在 标准 输出 上 (字符 形式 ) 
标准 字符 流 用 十 六 进 制 数字 表示 的 比特 流 
% more abra.txt % java HexDump 4 < abra.txt 
ABRACADABRA! 41 42 52 41 
43 41 44 41 
用 0 和 1 表示 的 比特 流 3 田 孝 
% java BinaryDump 16 < abra.txt 
0100000101000010 用 Picture 对 象 中 的 像素 表示 的 比特 流 
st % java PictureDump 16 6 < abra.txt 
0100010001000001 a 放大 的 16x6 
0100001001010010 一 像素 图 像 
0100000100100001 
96 位 96 位 


图 5.53 查看 比特 流 的 4 种 方法 


5.5.2.4 ASCII 编码 
当 你 使 用 HexDump 查看 一 个 含有 0123456789ABCDEF 
































ASCI 编码 的 字符 的 比特 流 的 内 容 时 , 最 。 9 中- 回国 国 回国 | 
好 参考 图 5.5.4。 对 于 给 定 的 两 个 十 六 进 制 。 “1 国 | | 
数字 ， 用 第 一 个 数字 表示 行 、 第 二 个 数字 。 “2 人 “sive le + 
表示 区 即 可 找到 它 所 表示 的 字符 。 例 如 ， 3 [|2|z|3|s|s|el7isle|:[; |< 
31 表 示 “1”, 4A 表示 “J”， 等 等 。 这 。 4 @lals cl Flcln 下 LIm|nlo 
张 表 适用 于 7 位 ASCI 码 ， 因 此 第 一 个 5 Plalrlsiriu lv iw x zc 
十 六 进 制 数字 必须 是 小 于 等 于 7 的 。 以 0 5 |aej<|d|ejfjs| 训 km 
或 六 1 开头 的 数 (以 及 20 和 在 ) 对 应 的 了 plajrls|sls[v[wlxlyjzltll- 









































都 是 无 法 打印 出 来 的 控制 字符 。 许 多 控制 图 5.5.4 十 六 进 制 编码 和 ASCII 字符 的 转换 表 
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字符 都 是 为 了 控制 打字 机 时 代 的 物理 设备 而 遗留 下 来 的 产物 。 我 们 在 这 张 表 中 突出 了 一 些 你 可 能 在 
转 储 中 已 经 见 过 的 字符 。 例 如 ，SP 是 空格 符 ，NUL 是 空 字符 ，LF 是 换行 符 ，CR 是 回 车 。 

总 之 ， 在 处 理 数据 压缩 问题 时 ， 除 了 标准 输入 输出 之 外 还 要 能 够 处 理 二 进 制 编码 的 数据 。 
BinaryStdIn 和 BinaryStdOut 提供 了 我 们 所 需要 的 方法 。 它 们 能 够 在 用 例 中 区 分 为 文件 存储 和 数 
据 传输 而 输出 的 信息 〈 供 其 他 程序 使 用 ) 和 为 打印 而 输出 的 信息 ( 供 人 类 阅读 ) 。 


5.5.3 ”局限 
为 了 更 好 地 理解 数据 压缩 算法 ， 你 需要 了 解 它们 的 一 些 局 限 性 。 研 究 人 员 已 经 为 此 打下 了 完整 而 
重要 的 理论 基础 ， 本 节 的 最 后 会 简要 讨论 ， 但 现在 我 们 先 来 探讨 几 个 方便 入门 的 结论 。 
5.5.3.1 通用 数据 压缩 
在 已 经 学 习 了 许多 重要 问题 的 算法 之 后 ， 你 可 能 会 认为 我 们 的 目标 
是 通用 性 的 数据 压缩 算法 ， 即 一 个 能 够 缩小 任意 比特 流 的 算法 。 但 与 之 
相反 ， 我 们 定 下 的 目标 更 加 朴素 ， 因 为 通用 性 的 数据 压缩 是 不 可 能 存在 
的 ， 请 见 图 5.5.5。 























命题 S。 不 存在 能 够 压缩 任意 比特 流 的 算法 。 


证 明 。 我 们 来 看 两 种 有 见地 的 证 明 。 第 一 种 采用 的 是 反 证 法 : 假设 
存在 一 个 能 够 压缩 任意 比特 流 的 算法 ， 那 么 也 就 可 以 用 它 压缩 它 自 
已 的 输出 以 得 到 一 段 更 短 的 比特 流 ， 循 环 往复 直到 比特 流 的 长 度 为 
0 1 能够 将 任意 比特 流 的 长 度 压 缩 为 0 显然 是 芒 雇 的 ， 因 此 存在 能 
够 压缩 任意 比特 流 的 算法 的 假设 也 是 错误 的 。 

第 二 种 证 明 方 法 基于 统计 : 假设 有 一 种 算法 能 够 对 所 有 长 度 为 1000 
位 的 比特 流 进行 无 损 压 缩 ， 那 么 每 一 种 能 够 被 压缩 的 比特 流 都 对 应 
着 一 段 较 短 且 不 同 的 比特 流 。 但 长 度 小 于 1000 位 的 比特 流 一 共 只 
有 1+2+4+…+2” +H29%-20m-1 种， 而 长 度 为 1000 位 的 比特 流 一 共有 
2 种， 因此 该 算法 不 可 能 压缩 所 有 长 度 为 1000 的 比特 流 。 如 果 我 
们 声明 更 多 的 条 件 ， 那 么 这 段 证 明 会 更 有 说 服 力 。 例 如 ， 继 续 人 很 设 
算法 的 目标 是 取得 大 于 50% 的 压缩 率 ， 那 么 显然 所 有 长 度 为 1000 
位 的 比特 流 中 的 压缩 成 功率 将 只 有 1/2 ! 





- oo- ess 


换 句 话说 ， 对 于 任意 数据 压缩 算法 ， 将 长 度 为 1000 位 的 随机 比特 
流 压缩 为 一 半 的 概率 最 多 为 2。 当 过 到 一 种 新 的 无 损 压缩 算法 时 ， 。 图 .5.5 是 否 存在 通用 
我 们 可 以 肯定 它 是 无 法 大 幅度 压缩 随机 比特 流 的 。 抛 奔 对 压缩 随机 比特 数据 压缩 
流 的 幻想 是 理解 数据 压缩 的 起 点 。 虽 然 我 们 会 经 常 处 理 数 百 万 至 数 十 亿 
比特 长 度 的 字符 串 ， 但 处 理 过 的 数据 总 量 只 是 这 种 字符 串 总 数 的 九 牛 一 毛 ， 所 以 不 必 为 这 个 理论 结 
果 而 温 夷 。 事 实 上 ， 经 常 被 处 理 的 比特 字符 串 都 是 非常 有 规律 的 ， 在 压缩 时 可 以 利用 这 一 点 。 
5.5.3.2 不 可 判定 性 

请 见 图 5.5.6， 它 是 一 条 上 百 万 位 的 字符 串 。 这 个 字符 串 看 起 来 很 随机 ， 所 以 你 不 太 可 能 为 它 
找到 一 个 无 损 压缩 算法 。 但 有 一 种 方法 只 用 几 千 个 比特 就 可 以 表示 这 个 字符 串 ， 因 为 它 是 通过 右 下 
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框 注 中 的 程序 生成 的 。 ( 这 个 程序 是 伪 随 机 数 生 成 器 的 一 个 示例 ， 和 Java.Math.random() 方法 一 
样 。) 通过 用 ASCII 文本 编写 生成 程序 来 进行 压缩 、 通 过 读 取 并 运行 该 程序 来 展开 被 压缩 字符 串 的 
压缩 算法 能 够 取得 0.3% 的 压缩 率 ， 这 是 非常 难以 超越 的 。 ( 我 们 还 能 够 降低 这 个 比例 ， 只 要 该 程 
序 再 输出 更 多 比特 即 可 。 ) 压缩 这 个 文件 最 好 的 方法 就 是 找 出 创造 这 些 数据 的 程序 。 这 个 例子 并 不 
像 它 看 起 来 那么 深奥 : 当 你 在 压缩 一 段 视频 或 是 一 本 通过 扫描 而 数字 化 的 旧书 或 是 互联 网 上 的 无 数 
其 他 类 型 的 文件 时 ， 你 都 在 寻找 创造 这 个 文件 的 程序 。 在 意识 到 我 们 处 理 的 大 部 分 数据 都 是 由 某 种 
程序 产生 的 之 后 , 我 们 才能 发 现 计算 理论 中 的 一 些 深刻 的 问题 并 理解 数据 压缩 所 面临 的 挑战 。 例 如 ， 
可 以 证 明 最 优 数据 压缩 找到 能 够 产生 给 定 字符 串 的 最 短程 序 ) 是 一 个 不 可 判定 的 问题 : 我 们 不 但 
不 可 能 找到 能 够 压缩 任意 比特 流 的 算法 ， 也 不 可 能 找到 最 佳 的 压缩 算法 ! 


% java RandomBits | java PictureDump 2000 500 





1 000 000 位 
图 5.5.6 一 个 难以 压缩 的 文件 :100 万 〈 伪 ) 随机 比特 
这 些 局 限 性 所 带 来 的 实际 影响 要 求 无 损 压缩 算法 必须 尽量 利用 被 压缩 的 数据 流 中 的 已 知 结构 。 
我 们 将 会 依次 讨论 4 种 方法 来 处 理 具备 以 下 结构 特点 的 数据 : 
口 小 规模 的 字母 表 ; 
口 较 长 的 连续 相同 的 位 或 字符 ; 
口 频繁 使 用 的 字符 ; 





口 较 长 的 连续 重复 的 位 或 字符 

如 果 你 已 知 给 定 的 比特 流 中 具有 以 上 Ronie class RandonBits 
一 种 或 多 种 人 那么 就 能 够 通过 将 要 学 public static void main(String[] args) 
习 的 4 种 方法 将 它 压缩 ; 如果 不 知道 给 定 





int x = 11111; 














比特 流 具 有 的 特点 ， 也 可 以 用 它们 碰 碰 运 
气 ， 因 为 你 的 数据 结构 也 许 并 不 是 那么 明 
显 ， 而 这 些 方法 的 适用 性 很 广 。 你 将 会 看 
到 ， 每 种 方法 都 有 多 个 参数 和 变种 ， 并 且 
可 以 为 特定 的 比特 流 调 优 以 达到 最 佳 的 压 
缩 率 。 第 一 个 和 最 后 一 个 示例 是 为 了 帮助 
你 了 解数 据 的 结构 ， 接 下 来 我 们 会 学 习 一 
个 方法 来 压缩 示例 数据 。 


5.5.4 ”热身 运动 基因 组 


for (Cint i = 0; i < 1000000; i++) 
{ 
x = X* 314159 + 218281; 
BinaryStdOut.write(x > 0); 


- 
BinaryStdOut.close(O); 


“被 压缩 后 的 ”一段 上 百 万 比特 的 数据 流 


在 讨论 更 加 复杂 的 数据 压缩 问题 之 前 ,我们 先 来 处 理 一 个 初级 的 (但 也 十 分 重要 的 ) 数据 压缩 
任务 。 我 们 在 这 个 例子 中 会 介绍 一 些 约定 ,它们 将 适用 于 本 节 中 的 所 有 实现 。 
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5.5.4.1 基因 数据 
作为 数据 压缩 的 第 一 个 示例 ， 请 看 下 面 这 个 字符 串 : 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGCAT 
如 果 使 用 标准 的 ASCII 编码 ( 每 个 字 Ne 
符 1 个 字 节 ，8 位 ) ， 这 个 字符 串 的 比特 流 pr static void compress() 


长 度 为 8x 35=280 位 。 这 种 字符 串 在 现代 生 
物 学 中 非常 重要 ,因为 生物 学 家 用 字母 A、C、 
T 和 G 来 表示 生物 体 的 DNA 中 的 四 种 碱 基 。 
基因 就 是 一 条 碱 基 的 序列 。 科 学 家 认识 到 理 
解 基因 的 性 质 是 理解 它们 在 活体 器 官 中 如 何 
作用 的 关键 ， 包 括 生 命 、 死 亡 和 疾病 。 许 多 
生物 的 基因 现在 都 是 已 知 的， 而 一 些 科学 家 
正在 编写 程序 来 分 析 这 些 序列 的 结构 。 
5.5.4.2 ” 双 位 编码 压缩 

基因 的 一 个 简单 性 质 是 ， 它 由 4 种 不 同 
的 字符 组 成 ,这 些 字符 可 以 用 两 个 比特 编码 ， 
如 右 侧 的 compress() 方法 所 示 。 尽 管 我 们 
知道 输入 流 是 由 字符 组 成 的 ， 但 是 仍然 可 以 
使 用 BinaryStdIn 来 读 取 这 些 输入 以 和 标 
准 的 数据 压缩 模型 保持 一 致 ( 从 比特 流 到 比 
特 流 ) 。 我 们 在 压缩 后 的 文件 中 记录 了 被 编 
码 的 字符 数量 ， 这 样 即使 最 后 一 位 并 没有 和 
字 节 对 齐 ， 解 码 也 能 够 顺利 进行 。 因 为 它 能 
够 将 一 个 8 位 的 字符 转换 为 一 个 双 位 编码 ， 
且 只 在 最 后 附加 32 位 用 于 记录 总 长 度 ， 上 
方程 序 的 压缩 率 会 随 着 压缩 字符 的 增多 越 来 
越 接近 25%。 
5.5.4.3 ” 双 位 编码 展开 





Alphabet DNA = new Alphabet("ACTG"); 
String s = BinaryStdIn. readStringO); 
int N = s.length(); 
BinaryStdOut .write(N); 
for (int i = 0; 1 < N; i++) 
{ // 将 字符 用 双 位 编码 代码 表示 
int d = DNA.toIndex(s.charAt(i)); 
BinaryStdOut .write(d, DNA.1gRO); 
} 
BinaryStdOut.close(); 


基因 数据 的 压缩 方法 


public static void expand() 
{ 


Alphabet DNA = new Alphabet("ACTG"); 
int w = DNA.1gRO; 
int N = BinaryStdIn.readIntC; 
for (int 1 = 0; 1 < N; i++) 
长 。 // 读 取 2 比特 ， 写 入 一 个 字符 
char c = BinaryStdIn.readChar(w); 
BinaryStdOut .write(DNA. toChar(c)); 
} 
BinaryStdOut. close(); 


基因 数据 的 展开 方法 


右边 框 注 中 的 expand0 方法 能 够 将 这 个 compress() 方法 产生 的 比特 流 展开 。 和 压缩 时 一 样 ， 
该 方法 会 按照 数据 压缩 的 基础 模型 读 取 一 个 比特 流 并 输出 一 个 比特 流 。 它 输出 的 比特 流 和 原始 输入 


相同 。 


相同 的 方法 也 适用 于 其 他 字母 表 大 小 固定 的 字符 串 , 但 我 们 将 它 的 推广 留 作 ( 简单 的 ) 习 题 ( 请 


见 练习 5.5.25) 。 


这 些 方法 和 数据 压缩 的 基础 模型 并 不 完全 一 致 ， 因 为 编码 后 的 比特 流 中 并 没有 包含 将 其 解码 所 
需 的 所 有 信息 。 由 A、C、T、G 4 个 字母 组 成 的 字母 表 只 是 两 个 方法 之 间 的 约定 。 这 种 约定 在 基因 
组 这 种 应 用 中 是 合理 的 ， 因 为 这 些 编码 会 被 大 量 复 用 。 但 在 其 他 的 场景 中 ， 字 母 表 也 可 能 需要 包含 
在 被 编码 的 信息 中 ( 请 见 练习 5.5.25 ) 。 在 比较 数据 压缩 的 方法 时 我 们 通常 都 要 计 人 这 些 成 本 。 

在 基因 组 学 的 早期 ， 分 析 一 段 染 色 体 序列 是 一 个 漫长 而 艰苦 的 任务 ,因此 已 知 的 序列 都 相对 较 短 ， 
科学 家 可 以 用 标准 的 ASCI 编码 来 存储 和 交换 它们 。 现 在 ， 这 个 实验 流程 的 效率 已 经 大 大 提高 了 ， 已 知 
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的 基因 组 的 数量 非常 多 而 且 都 很 长 (人 类 的 基因 组 长 度 超过 10" 比特 ) 。 用 这 些 简单 的 方法 就 能 节省 
75% 的 空间 已 经 非常 可 观 了 。 还 有 继续 压缩 的 余地 吗 ? 这 是 一 个 非常 有 趣 的 问题 ， 因 为 这 是 一 个 科学 问 
题 : 继续 压缩 的 潜力 意味 着 这 些 数据 中 还 存在 着 某 种 结构 ， 而 现代 基因 组 学 的 重点 就 是 希望 从 基因 数据 
中 发 现 更 多 的 结构 。 我 们 将 会 学 习 的 一 些 标准 数据 压缩 方法 对 于 ( 经 过 双 位 编码 压缩 后 的 ) 基因 数据 并 
没有 什么 效果 ， 和 处 理 随机 数据 类 似 。 








小 型 测试 用 例 (264 位 ) 


% more genomeTiny.txt 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGC 


java BinaryDump 64 < genomeTiny.txt 
0100000101010100010000010100011101000001010101000100011101000011 
0100000101010100010000010100011101000011010001110100001101000001 
0101010001000001010001110100001101010100010000010100011101000001 
0101010001000111010101000100011101000011010101000100000101000111 
01000011 

264 位 


% java Genome - < genomeTiny .txt 
3? 一 一 在 标准 输出 上 无 法 看 到 比特 流 


% java Genome - < genomeTiny.txt | java BinaryDump 64 
0000000000000000000000000010000100100011001011010010001101110100 
1000110110001100101110110110001101000000 

104 位 


% java Genome - < genomeTiny.txt | java HexDump 8 
00 00 00 21 23 2d 23 74 

8d 8c bb 63 40 

104 位 


% java Genome - < genomeTiny.txt > genomeTiny.2bit 
% java Cenome + < genomeTiny.2bit 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGC 


压缩 -展开 循环 


% java Genome - < genomeTiny.txt | java Genome + 
ATAGATGCATAGCGCATAGCTAGATGTGCTAGC 一 -得 到 了 原始 输入 


-个 真实 的 病毒 (50 000 位 ) 
% java PictureDump 512 100 < genomeVirus.txt 





50 000 位 


% java Genome - < genomeVirus.txt | java PictureDump 512 25 





图 5.5.7 使 用 双 位 编码 压缩 和 展开 基因 组 序列 


我 们 将 compress() 和 expandO) 作为 
静态 方法 和 一 个 简单 的 用 例 打 包 在 一 个 相同 
的 类 中 ， 如 框 注 代码 所 示 。 为 了 测试 你 对 
游戏 规则 的 理解 和 我 们 用 于 数据 压缩 的 基 
本 工具 ， 请 研究 图 5.5.7 中 的 各 种 命令 。 它 
们 调用 了 Genome.compress() 和 Genome. 
expand() 来 处 理 样本 数据 ( 以 及 输出 ) 。 


5.5 数据 压缩 本 537 


public class Genome 





€ 
public static void compress() 

”// 请 网 正 文 
public static void expand() 
// 请 见 正文 全 可 
public static void main(String[] args) gi 
{ 











if (args[0] .equals("-")) compress(); 
if (args[0] .equals("+")) expand(); 


5.5.5 ”游程 编码 


比特 流 中 最 简单 的 元 余 形式 就 是 一 长 。 3 
申 重复 的 比特 。 下 面 我 们 学 习 一 种 经 典 的 游 
程 编码 (Run-Length Encoding ) 来 利用 这 种 
元 余 压 缩 数据 。 例 如 ， 请 看 下 面 这 条 40 位 长 的 字符 串 : 


0000000000000001111111000000011111111111 


数据 压缩 方法 的 打包 方式 


该 字符 串 含 有 15 个 0， 然 后 是 7 个 1， 然 后 是 7 个 0, 然后 是 11 个 1， 因 此 我 们 可 以 将 该 比特 字符 
申 编 码 为 15，7，7，11。 所 有 的 比特 字符 串 都 是 由 交替 出 现 的 0 和 1 组 成 的 ， 因 此 我 们 只 需要 将 游程 的 
长 度 编码 即 可 。 在 这 个 例子 中 ， 如 果 用 4 位 表示 长 度 并 以 连续 的 0 作为 开头 ， 那 么 就 可 以 得 到 一 个 16 位 


长 的 字符 串 (15=1111，7=0111，7=0111，11=1011 ) ; 


1111011101111011 

压缩 率 为 16/40=40%。 为 了 将 这 里 的 描述 转化 成 一 种 
有 效 的 数据 压缩 方法 ， 我 们 需要 解决 以 下 几 个 问题 。 

口 应 该 使 用 多 少 比特 来 记录 游程 的 长 度 ? 

口 当 某 个 游程 的 长 度 超过 了 能 够 记录 的 最 大 长 度 时 


怎么 办 ? 
口 当 游 程 的 长 度 所 需 的 比特 数 小 于 记录 长 度 的 比特 
数 时 怎么 办 ? 


我 们 感 兴趣 的 主要 是 含有 的 短 游程 相对 较 少 的 长 比 
特 流 ， 因 此 这 些 问题 的 回答 是 : 

口 游程 长 度 应 该 在 0 到 255 之 间 ， 使 用 8 位 编码 ; 

口 在 需要 的 情况 下 使 用 长 度 为 0 的 游程 来 保证 所 有 


游程 的 长 度 均 小 于 256; 
口 我 们 也 会 将 较 短 的 游程 编码 ， 虽 然 这 样 做 有 可 能 
使 输出 变 得 更 长 。 


这 些 决定 非常 容易 实现 而 且 对 于 实际 应 用 中 经 常 出 
现 的 几 种 比特 流 十 分 有 效 。 它 们 不 适用 于 含有 大 量 短 游 
程 的 输入 一 一 只 有 在 游程 的 长 度 大 于 将 它们 用 二 进 制 表 
示 所 需 的 长 度 时 才能 节省 空间 。 
5.5.5.1 位 图 


作为 游程 编码 效果 的 一 个 示例 ， 这 里 探讨 位 图 。 它 


java Binaryomp 32 < q32n48.bin 


7 0 
15 3 


prs SH 


900000000000000000000011 1 
90000000000000000000001111100000 
90000000000000000011111110000 a 
000000000000000000111i ii ii 100 





图 5.5.8 


- 幅 典 型 的 位 图 ， 每 行 的 游程 
编码 如 右 所 示 
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被 广泛 用 于 保存 图 像 和 扫描 文档 。 简 单 起 见 , 我 们 将 二 进 制 位 图 数据 组 织 为 将 像素 按 行 排列 的 比特 流 。 
我 们 可 以 用 PictureDump 查看 位 图 的 内 容 。 用 程序 将 为 “截屏 ”或 是 “扫描 文档 ”所 定义 的 多 种 党 
见 的 无 损 图 像 格式 转化 为 位 图 十 分 简单 ( 请 见 练习 5.5x) 。 这 里 用 来 展示 游程 编码 的 效果 的 示例 来 
自 本 书 的 图 像 : 一 个 字符 “q”( 各 种 分 辩 率 ) 。 我 们 的 重点 是 一 幅 32 x 48 像素 的 截图 的 二 进 制 转 储 ， 
如 图 5.5.8 所 示 ， 每 行 的 右 侧 为 该 行 的 游程 编码 。 因 为 每 行 的 开始 和 结束 都 是 0， 所 以 每 行 的 游程 数 
量 都 是 奇数 。 因 为 一 行 的 结束 之 后 就 是 另 一 行 的 开始 ， 所 以 比特 流 中 相对 应 的 游程 的 长 度 就 是 每 一 
行 的 最 后 一 个 游程 的 长 度 和 下 一 行 的 第 一 个 游程 的 长 度 之 和 ( 全 部 为 0 的 行 则 应 该 继续 相 加 ) 。 


5.5.5.2 实现 

由 刚才 给 出 的 非 正 式 描述 可 以 立即 得 
到 右边 框 注 中 的 compress() 和 expandQ) 
方法 。 和 以 前 一 样 ，expand() 的 实现 相对 
简单 : 读 取 一 个 游程 的 长 度 ， 将 当前 比特 
按照 长 度 复制 并 打印 ， 转 换 当 前 比特 然后 
继续 ， 直 到 输入 结束 。compress 0 方法 也 
很 简单 。 对 于 输入 ， 它 进行 了 以 下 操作 : 

口 读 取 一 个 比特 ; 

口 如 果 它 和 上 一 个 比特 不 同 ， 写 人 当 
计数 值 并 将 计数 器 归 零 ; 
和 上 一 个 比特 相同 且 计 数 器 
达 最 大 值 ， 则 写 人 计数 值 ， 
-个 0 计数 值 ， 然 后 将 计数 








口 增加 计数 器 的 值 。 

当 输 入 流 结束 时 ， 写 人 计数 值 ( 最 后 
一 个 游程 的 长 度 ) 并 结束 。 
5.5.5.3 ”提高 位 图 的 分 辩 率 

游程 编码 广泛 用 于 位 图 的 主要 原因 是 ， 
随 着 分 辩 率 的 提高 它 的 效果 也 会 大 大 的 提 
高 。 证 明 这 一 点 很 简单 。 假 设 将 上 一 个 例 
子 中 的 分 辩 率 提高 一 倍 ， 则 很 容易 得 到 : 

口 总 比特 数 变 为 了 原来 的 4 售 ; 

口 游程 的 数量 变 为 约 原来 的 2 倍 ; 

口 游程 的 长 度 变 为 约 原来 的 2 倍 ; 

口 压缩 后 的 比特 数量 变 为 约 原来 的 2 

倍 ; 
口 因此 ， 压缩 率 变 成 了 原来 的 一 半 ! 
未 使 用 游程 编码 时 ， 当 分 辩 率 提高 一 





public static void expand() 


boolean b = false; 
while (!BinaryStdIn.isEmptyO)) 
{ 
char cnt = BinaryStdIn. readChar(O); 
for (int 1 = 0; i < cnt; i++) 
BinaryStdOut .write(b); 
b= !b; 


} 
BinaryStdOut. closeO’; 


public static void compress() 
{ 


char cnt = 0; 

boolean b, old = false; 

while (!BinaryStdIn.isEmptyO)) 
{ 


b = BinaryStdIn.readBoolean(); 
if (b != ol1d) 


BinaryStdOut .write(cnt); 
cnt = 0; 
old = !o1d; 
else 
if (cnt == 255) 
BinaryStd0ut .write(cnt); 


cnt = 0; 
BinaryStdOut.write(cnt); 


} 


Cnt++; 
} 
BinaryStdOut .writeCcnt); 


BinaryStdOut.close(); 
} 


游程 编码 的 压缩 和 展开 方法 


信 时 图 像 所 需 空间 变 为 原来 的 4 倍 ; 使 用 了 游程 编码 后 ， 当 分 辩 率 提高 一 倍 时 压缩 后 的 比特 流 的 
长 度 仅 变 为 了 原来 的 一 倍 。 也 就 是 说 ， 随 着 所 需 空间 的 增 大 ， 压 缩 比 和 分 辩 率 成 反比 。 例 如 ， 我 
们 的 字母 “q”《 在 低 分 辩 率 时 ) 的 压缩 率 为 74%; 如 果 将 分 辩 率 提高 到 64 x 96， 压 缩 比 就 下 降 为 
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37%。 我 们 从 图 5.5.9 中 PictureDump 的 输出 中 可 以 明显 看 出 这 个 变化 。 高 分 辩 率 的 字符 图 像 所 需 
的 空间 是 低 分 辩 率 字符 图 像 的 4 倍 ( 两 个 维度 上 的 长 度 均 加 倍 ) ， 但 压缩 后 的 版 本 所 需 的 空间 仅 为 
原来 的 2 倍 ( 只 在 一 个 维度 上 增 倍 ) 。 如 果 继续 将 分 辩 率 提高 到 128 x 192 ( 接近 于 打印 所 需 的 分 辩 2 
率 ) ， 压 缩 比 则 会 下 降 到 18% ( 请 见 练习 5.5.5 ) 。 824 














小 型 测试 用 例 《40 位) 


% java BinaryDump 40 < 4runs.bin 
0000000000000001111111000000011111111111 
40 位 


% java RunLength - < 4runs.bin | java HexDump 
of 07 07 ob 
32 位 压缩 比 32/40=80% 


% java RunLength - < 4runs.bin | java RunLength + | java BinaryDump 40 
0000000000000001111111000000011111111111 ~ 一 压缩 -展开 得 到 了 原始 输入 
40 位 


ASCII 文 本 (96 位 ) 


% java RunLength - < abra.txt | java HexDump 24 

01 01 05 01 01 01 04 01 02 01 01 01 02 01 02 01 05 01 01 01 04 0; 
05 01 01 01 03 01 03 01 05 01 01 01 04 01 02 01 01 01 02 01 02 0 
02 01 04 01 

416 位 “一 奈 纺 比 416/96=433% 一 一 请 和 使 用 游程 编码 来 处 理 ASCI[ 文 本 ! 


幅 位 图 1536 位) % java PicrureDump 32 48 < q32x48.bin 


% java RunLength - < q32x48.bin > q32x48.bin.rle 
% java HexDump 16 < q32x48.bin.rle 
4f 07 16 Of Of 04 04 09 0d 04 09 06 Oc 03 gc 05 





Ob 04 Oc 05 0a 04 0d 05 09 04 Oe 05 09 04 Oe 05 

08 04 of 05 08 04 Of 05 07 05 Of 05 07 05 Of 05 

07 05 Of 05 07 05 Of 05 07 05 Of 05 07 05 Of 05 % ictureDump 32 36 < q32x48.rle.bin 
07 05 of 05 07 05 Of 05 07 06 Oe 05 07 06 Oe 05 

08 06 0d 05 08 06 0d 05 09 06 Oc 05 09 07 Ob n5 

Oa 07 0a 05 Ob 08 07 06 Oc 14 Oe Ob 02 05 11 05 

05 05 lb 05 lb 05 lb 05 lb 05 lb 05 lb 05 lb 05 ” 

1b 05 lb 05 1b 05 lb 05 1a 07 16 0c 13 0e 41 TMA 


1144 位 ~ 一 瓜 纳 比 1144/1536=74% 


-由 分 辩 冰 更 商 的 位 图 (6144 位 ) 


% java BinaryDump 0 < q64x96.bin 
6144 位 

% java RunLength - < q64x96.bin | java BinaryDump 0 
2296 位 ~ 一 压 编 比 2296/6144=37% 


% java PictureDump 64 96 < q64x96.bin 


6144 位 
% java PictureDump 64 36 < q64x96.rle.bin 


如 出 
图 5.5.9 使 用 游程 编码 压缩 和 展开 比特 流 


游程 编码 在 许多 场景 中 非常 有 效 ， 但 在 许多 情况 下 我 们 希望 压缩 的 比特 流 并 不 含有 较 长 的 游程 
(例如 典型 的 英文 文档 ) 。 下 面 我 们 来 学 习 两 种 适用 于 多 种 类 型 的 文件 压缩 算法 。 它 们 的 应 用 非常 
广泛 ， 在 从 网 络 上 下 载 文件 时 很 可 能 就 用 到 了 它们 。 [825 
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5.5.6 ” 霍 夫 曼 压 缩 

我 们 现在 来 学 习 一 种 能 够 大 幅 压 缩 自然 语言 文件 空间 ( 以 及 许多 其 他 类 型 文件 ) 的 数据 压缩 技 
术 。 它 的 主要 思想 是 放弃 文本 文件 的 普通 保存 方式 : 不 再 使 用 7 位 或 8 位 二 进 制 数 表示 每 一 个 
而 是 用 较 少 的 比特 表示 出 现 频率 高 的 字符 ， 用 较 多 的 比特 表示 出 现 频率 低 的 字符 。 

为 了 说 明 这 个 概念 , 先 来 看 一 个 简单 的 示例 ,假设 需要 将 字符 串 A BR A CA DA BRA ! 编 码 。 
由 7 位 ASCIL 字符 编码 我 们 可 以 得 到 比特 字符 串 : 

100000110000101010010100000110000111000001- 

100010010000011000010101001010000010100001. 

要 将 这 段 比特 字符 品 解码 , 只 需 每 次 读 取 7 位 并 根据 图 5.5.4 的 ASCII 编码 表 将 它 转换 为 字符 
在 这 种 标准 的 编码 下 ， 只 出 现 了 一 次 的 D 和 出 现 了 5 次 的 A 所 需 的 比特 数 是 一 样 的 。 霍 夫 曼 压缩 的 
思想 是 通过 用 较 少 的 比特 表示 出 现 频繁 的 字符 而 用 较 多 的 比特 表示 偶尔 出 现 的 字符 来 节省 空间 ， 这 
样 字符 串 所 使 用 的 总 比特 数 就 会 降低 。 
5.5.6.1 变 长 前 缀 码 

和 每 个 字符 所 相关 联 的 编码 都 是 一 个 比特 字符 申 ， 就 好 像 有 一 个 以 字符 为 键 、 比 特 字符 串 为 值 
的 符号 表 一 样 。 我 们 可 以 试 着 将 最 短 的 比特 字符 串 赋予 最 常用 的 字符 , 将 A 编码 为 0、B 编码 为 1 、 
RR 为 00、C 为 01、 DD 为 10、! 为 11。 这样 ABRACADABRA! 的 编码 就 是 010000101001 
00 0 11。 这 种 表示 方法 只 用 了 17 位 ,而 7 位 的 ASCII 编码 则 用 了 77 位 。 但 这 种 表示 方法 并 不 完整 ， 
因为 它 需 要 空格 来 区 分 字符 。 如 果 没 有 空格 ， 比 特 字符 串 就 会 变 成 这 个 样子 : 

01000010100100011 

它 也 可 以 被 解码 为 C RR D D C R C B 或 是 其 他 字符 串 。 但 17 位 加 上 10 个 分 隔 符 也 比 标准 的 
编码 要 紧凑 的 多 了 ， 没 有 用 于 编码 的 比特 字符 不 会 在 这 条 消息 中 出 现 。 如 果 所 有 字符 编码 都 不 会 成 
为 其 他 字符 编码 的 前 缓 ， 那 么 就 不 需要 分 隔 符 了 。 下 一 步 我 们 就 要 做 到 这 一 点 。 含 有 这 种 性 质 的 编 
码 规则 叫做 前 组 码 。 刚 才 我 们 给 出 的 编码 并 不 是 前 级 码 ， 因 为 A 的 编码 0 就 是 R 的 编码 00 的 前 组 。 
例如 ， 如 果 我 们 将 A 编码 为 0、B 为 1111、C 为 110、D 为 100、R 为 1110、! 为 101， 那么 将 以 下 
长 为 30 的 比特 字符 串 解码 的 方式 就 只 有 ABRACADABRA! 一 种 了 : 

011111110011001000111111100101 

所 有 的 前 毕 码 的 解码 方式 都 和 它 一 样 ， 是 唯一 的 ( 不 需要 任何 分 隔 符 ) ， 因 此 前 组 码 被 广泛 应 
用 于 实际 生产 之 中 。 注 意 , 像 7 位 ASCII 编码 这 样 的 定 长 编码 也 是 前 组 码 。 
5.5.6.2 ”前 缀 码 的 单词 查找 树 

表示 前 级 码 的 一 种 简便 方法 就 是 使 用 单词 查找 树 ( 请 见 5.2 节 ) 。 事 实 上 ， 任意 含有 M 个 空 链 
接 的 单词 查找 树 都 为 M 个 字符 定义 了 一 种 前 组 码 方法 :我们 将 空 链接 替换 为 指向 叶子 结 点 ( 含有 
两 个 空 链接 的 结 点 ) 的 链接 ， 每 个 叶子 结 点 都 含有 一 个 需要 编码 的 字符 。 这 样 ， 每 个 字符 的 编码 就 
是 从 根 结 点 到 该 结 点 的 路 径 表 示 的 比特 字符 串 ， 其 中 左 链接 表示 0， 右 链接 表示 1。 例 如 ， 图 5.5.10 
显示 了 字符 串 A B RA C A D A B R A ! 中 的 字符 的 两 种 前 缀 码 方式 。 上 方 的 例子 就 是 我 们 刚才 提 到 
的 编码 方式 ， 下 方 的 编码 得 到 的 比特 字符 串 为 : 


11000111101011100110001111101 
该 字符 串 只 有 29 位 ， 比 上 一 种 少 1 位 。 是 否 存在 能 够 压缩 得 更 多 的 单词 查找 树 呢 ? 我 们 如 何 
才能 找到 压缩 率 最 高 的 前 缀 码 ?实际 上 ， 这 些 问题 都 有 一 个 优雅 的 解 。 有 一 种 算法 能 够 为 任意 字符 
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串 构造 一 棵 能 够 将 比特 流 最 小 化 的 单词 查找 树 。 为 了 编译 表 单词 查找 树 的 表示 
公平 比较 各 种 编码 , 还 需要 计算 编码 本 身 所 需 的 空间 ， ne 2 

因为 没有 它 就 无 法 将 字符 串 解码 。 你 会 看 到 ， 编 码 的 A 

方式 是 和 字符 串 相 关 的 。 寻 找 最 优 前 级 码 的 通用 方法 ra 

是 D.Huffman 在 1952 年 发 现 的 ( 当时 他 还 是 个 学 生 ! )， 9 ee a 

因此 被 称 为 替 夫 曼 编码 。 

5.5.6.3 概述 





下 压缩 后 的 比特 字符 串 
使 用 前 绥 码 进行 数据 压缩 需要 经 过 5 个 主要 步骤 。 011111110011001000111111100101 -30 位 


我 们 将 待 编码 的 比特 流 看 作 一 个 字 节 流 并 按照 以 下 方 A B RACADA B RAl! 








式 使 用 前 缀 码 : 编译 表 

口 构造 一 棵 编码 单词 查找 树 ; 键 值 

口 将 该 树 以 字 节 流 的 形式 写 人 输出 以 供 展开 时 使 。 人 了: 

用 ; B 00 ' 

口 使 用 该 树 将 字 节 流 编码 为 比特 流 。 Bb2 000 

在 展开 时 需要 ， R ou 

口 读 取 单词 查找 树 ( 保存 在 比特 流 的 开头 ) ; Ee 

口 使 用 该 树 将 比特 流 解码 。 Fir mui pi re -一 29 位 

为 了 帮助 你 更 好 地 理解 和 领会 这 个 过 程 , 我 们 将 AB RA CA DAB RA ! 826 
按照 难度 逐个 考察 这 些 步 耿 。 图 5.5.10 ”两 种 不 同 的 前 颖 码 827 











5.5.6.4 ”单词 查找 树 的 结 点 

我 们 首先 过 到 的 是 如 后 面 框 注 所 示 的 Node 类 。 它 和 我 们 曾经 用 来 构造 二 叉 树 和 单词 查找 树 的 
嵌 套 类 相似 :每 个 Node 对 象 都 含有 指向 其 他 Node 对 象 的 1eft 和 right 引用 ， 这 定义 了 单词 查找 
树 的 结构 。 每 个 Node 对 象 还 包含 一 个 实例 变量 freq， 构 造 函 数 会 用 到 它 。 另 一 个 实例 变量 ch 用 
于 表示 叶子 结 点 中 需要 被 编码 的 字符 。 


private static class Node implements Comparable<Node> 
{ // 塞 夫 曼 单 词 查找 树 中 的 结 点 

private char ch;  // 内 部 结 点 不 会 使 用 该 变量 

private int freq; // 展开 过 程 不 会 使 用 该 变量 

private final Node left, right; 


NodeCchar ch, int freq, Node left, Node right) 
{ 

this.ch = ch; 

this.freq = freq; 

this.left = left; 

this.right = right; 
} 


public boolean isLeaf() 
{ return left == nul1 && right == nul1; } 


public int compareTo(Node that) 
{ return this.freq - that.freq; } 


单词 查找 树 的 结 点 表示 
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符 事 


public static void expandC) 


Node root = readTrieOi 
int N = BinaryStdIn.readIntO; 
for Cint i = 0; i < N; i++) 
{ // 展开 第 i 个 编码 所 对 应 的 字母 
Node x = root; 
while (!x.isLeaf()) 
if (BinaryStdIn.readBoolean()) 
x = x.right; 
else x = x.left; 
BinaryStdOut.write(x.ch); 


} 
BinaryStdOut.closeQO; 


前 绥 码 的 展开 (解码 ) 


5.5.6.5 ”使 用 前 缀 码 展开 

有 了 定义 前 缀 码 的 单词 查找 树 ， 扩 展 被 纺 
码 的 比特 流 就 简单 了 。 后 面 框 注 中 的 expand() 
方法 实现 了 这 个 过 程 。 在 从 标准 输入 中 使 用 后 
文 所 述 的 readTrie() 方法 读 取 了 单词 查找 树 
之 后 ， 用 它 将 比特 流 的 其 余部 分 展开 : 根据 比 
特 流 的 输入 从 根 结 点 开始 向 下 移动 ( 读 取 一 个 
比特 ， 如 果 为 0 则 移动 到 左 子 结 点 ， 如 果 为 1 
则 移动 到 右 子 结 点 ) 。 当 遇 到 叶子 结 点 后 ， 输 
出 该 结 点 的 字符 并 重新 回 到 根 结 点 。 如 果 你 仔 
细 研 究 这 个 方法 在 图 5.5.11 中 的 小 型 前 缀 码 示 
例 中 的 表现 ， 就 能 够 理解 这 个 过 程 。 例 如 ， 在 
解码 比特 流 011111001011.. 时 ,从 根 结 点 开始 ， 


因为 第 一 个 比特 是 0， 所 以 移动 到 左 子 结 点 ， 输 出 A; 回 到 根 结 点 ， 向 右 子 结 点 移动 3 次 ， 然 后 输 


出 B; 回 到 根 结 点 ， 向 右 子 结 


移动 两 次 ， 左 子 结 点 移动 1 次 ,输出 R; 如 此 往复 。 展 开 的 简单 性 


也 是 前 级 码 ， 特 别 是 替 夫 曼 压缩 算法 流行 的 原因 之 一 。 


5.5.6.6 ”使 用 前 缀 码 压缩 


在 压缩 时 ， 我 们 使 用 单词 查找 树 定义 的 编码 来 构造 编 
译 表 ， 如 后 面 框 注 中 的 bui1dCode() 方法 所 示 。 该 方法 短 
小 而 优雅 , 其 巧妙 之 处 值得 仔细 研究 。 对 于 任意 单词 查找 树 ， 
它 都 能 产生 一 张 将 树 中 的 字符 和 比特 字符 串 (用 由 0 和 1 
组 成 的 String 字符 串 表 示 ) 相对 应 的 编译 表 。 编 译 表 就 是 
一 张 将 每 个 字符 和 它 的 比特 字符 串 相关 联 的 符号 表 : 为 了 
提升 效率 ， 我 们 使 用 了 一 个 由 字符 索引 的 数组 st[] 而 非 普 


编译 表 。 单词 查 找 树 的 表示 

键 值 人 

1 1010 

A 0 po, 

B 111 

C 1011 中 

D 100 

R 110 从 由 县 
图 5.5.11 一 种 替 夫 曼 编码 


通 的 符号 表 ， 因 为 字符 的 数量 并 不 多 。 在 构造 该 符号 表 时 ， 

bui1dCode() 递归 遍历 整 棵 树 并 为 每 个 结 点 维护 了 一 条 从 根 结 点 到 它 的 路 径 所 对 应 的 二 进 制 字 符 串 
(0 表示 左 链接 ，! 表示 右 链 接 ) 。 每 当 到 达 一 个 叶子 结 点 时 ， 算 法 就 将 结 点 的 编码 设 为 该 二 进 制 
字符 串 。 编 译 表 建 立 之 后 ， 压 缩 就 很 简单 了 ， 只 需 在 其 中 查找 输入 字符 所 对 应 的 编码 即 可 。 使 用 后 


private static String[] buildCode(Node root) 
{ // 使 用 单词 查找 树 构造 编译 表 
String[] st = new String[R]; 
buildCode(st, root, ""); 
return st; 
. 


private static void buildCode(String[] st, Node x, String s) 


{ // 使 用 单词 查找 树 构造 编译 胡 【 递 归 ) 
if (x.isLeaf(O)) 
{ st[x.ch] = s; return; } 
buildCode(st, x.left, s+ "0 
buildCode(st, x.right, s+ '1 





通过 前 绥 码 字典 查找 树 构建 编译 表 


面 框 注 中 的 编码 压缩 A B 
RACADABRA!, 首 
先 写 入 0 (A 的 编码 ) ， 
然后 是 111 (B 的 编码 ) ， 
然后 是 110 ( R 的 编码 ) ， 
等 等 。 框 注 中 的 这 一 段 
代码 完成 的 任务 是 查找 
输入 的 每 个 字符 所 对 应 
的 编码 String 对 象 ， 将 
char 数组 中 字符 转化 为 
0 和 1 的 值 并 写 入 输出 的 
比特 字符 串 中 。 
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5.5.6.7 ”单词 查找 树 的 构造 
作为 描述 过 程 的 参考 ， 图 5.5.12 展 


for (int i = 0; i < input.length; i++) 


pith i rt et 示 了 为 以 下 输入 构造 一 棵 逢 夫 曼 单词 查 
for (int j = 0; j < code.lengthO; j++) 本 
if (code.charAt(j) == '1') 找 树 的 过 程 : 


BinaryStdOut .write(true); 上 i 
else BinaryStdOut .writeCfalse); ee best oh Unes dh-a5E: Ne 
} worst of times 


我 们 将 需要 被 编码 的 字符 放 在 叶子 
使 用 编 泽 表 的 压缩 结 点 中 并 在 每 个 结 点 中 维护 了 一 个 名 为 
freq 的 实例 变量 来 表示 以 它 为 根 结 点 的 子 树 中 的 所 有 字符 出 现 的 频率 。 构 造 的 第 一 步 是 创建 一 片 由 许 
多 只 有 一 个 结 点 ( 即 叶子 结 点 ) 的 树 所 组 成 的 森林 。 每 棵 树 都 表示 输入 流 中 的 一 个 字符 ,每 个 结 点 中 的 
freq 变量 的 值 都 表示 了 它 在 输入 流 中 的 出 现 频率 。 在 我 们 的 例子 中 ,输入 含有 8 个 t， 5 个 e，11 个 空 
格 等 (特别 提示 为 了 得 到 这 些 频率 ， 需 要 读 取 整 个 输入 流 一 和 均 夫 曼 编码 是 一 个 两 轮 算 法 ， 因 为 需要 
再 次 读 取 输入 流 才能 压缩 它 ) 。 接 下 来 自 底 向 上 根据 频率 构造 这 棵 编码 的 单词 查找 树 。 在 构造 时 将 它 看 
作 一 棵 结 点 中 含有 频率 信息 的 二 叉 树 ;在 构造 后 ， 我 们 才 将 它 看 作 一 棵 用 于 编码 的 单词 查找 树 。 构 造 过 
程 如 下 ， 首先 找到 两 个 频率 最 小 的 结 点 ， 然 后 创建 一 个 以 二 者 为 子 结 点 的 新 结 点 〔 新 结 点 的 频率 值 为 它 
的 两 个 子 结 点 的 频率 值 之 和 ) 。 这 个 操作 会 将 森林 中 树 的 数量 减 一 。 然 后 不 断 重复 这 个 过 程 ， 找 到 森林 
中 的 两 棵 频率 最 小 的 树 并 用 相同 的 方式 创建 一 个 新 的 结 点 。 用 优先 队列 能 够 轻易 实现 这 个 过 程 ， 如 左下 
框 注 的 bui1dTrie 方法 所 示 。 ( 为 了 说 明 这 个 过 程 ， 图 5.5.12 中 的 所 有 单词 查找 树 是 有 序 的 。) 随 着 
这 个 过 程 的 继续 ， 我 们 构造 的 单词 查找 树 将 越 来 越 大 ， 而 森林 中 的 树 会 越 来 越 少 ( 每 一 步 都 会 出 除 两 棵 
树 ， 添 加 一 株 新 村 ) 。 量 终 ， 所 有 的 结 点 会 被 合并 为 一 棵 单独 的 单词 查找 树 。 这 棵 树 中 的 叶子 结 点 为 所 
有 待 编码 的 字符 和 它们 在 输入 中 出 现 的 频率 ， 每 个 非 叶 子 结 点 中 的 频率 值 为 它 的 两 个 子 结 点 之 和 。 频 素 
较 低 的 结 点 会 被 安排 


在 树 的 底层 ， 而 高 频 | 
率 的 结 点 则 会 被 安排 Ne static Node buildTrie(int[] freq) 






















在 根 结 点 附近 的 地 方 。 /7 er 庆 了 
时 和 MinPQ<Node> pq = new MinpQ<Node>(); 
根 结 点 的 频率 值 等 于 for (char c = 0; c < Ri c++) 
输入 中 的 字符 数量 。 if (freq[c] > 0) 
因为 这 是 一 棵 二 叉 树 pq.insert(new Node(c, freq[c], null, nu11)); 
六 a while (pq.sizeO > 1) 
且 字 符 仅 存在 于 叶子 Pa ete ge 
结 点 中 ， 所 以 就 定义 Node x = pq.delMin(); 
下 Node y = pq.delMinO; 
了 这 些 字符 的 前 级 码 。 Node parent = new Node('\0', x.freq + y.freq, x, y); 
使 用 buildcodeO) 方 pq.insert(parent); 
法 为 这 个 示例 构造 的 2 


return pq.delMinO; 


编译 表 ( 如 图 5.5.13 } 


的 右 侧 所 示 ) ， 得 到 
了 以 下 输出 ; 构造 一 棵 年 夫 曼 编码 单词 查找 树 


10111110100101101110001111110010000110101100- 
01001110100111100001111101111010000100011011- 
11101001011011100011111100100001001000111010- 
01001110100111100001111101111010000100101010. 
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这 个 比特 字符 串 长 176 位 ， 相 比 用 标准 的 8 位 ASCII 编码 得 到 的 51 个 字符 的 408 位 编码 节省 了 


57% ( 没有 计算 构造 编码 的 开销 ， 


下 面 马上 讨论 ) 。 另 外 ， 因 为 它 是 一 个 霍 夫 曼 编码 ， 所 以 不 存在 


其 他 能 够 用 更 少 的 比特 将 输入 编码 的 前 组 码 了 。 





图 5.5.12 构造 一 棵 霍 夫 曼 编码 单词 查找 树 
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人 编译 表 
字典 查找 树 的 表示 键 什 
F000 
Sp 01 
a 
A 
ts i 
ba 1 ao 
OO om 
/ ooou 
w 在 输入 中 i 
出 现 了 3 次 1 入 从 根 结 点 到 这 里 ;二 
路 径 上 的 标签 依次 w。 oo 
为 11010， 因 此 11010 
就 是 M 的 编码 
图 5.5.13 字符 串 “it was the best of times it was the worst of times LF” 的 霍 夫 曼 编码 
5.5.6.8 ”最 优 性 


我 们 已 经 看 到 ， 在 树 中 高 频率 的 字符 比 低频 率 的 字符 离 根 结 点 更 近 ， 因 此 编码 所 需 的 比特 更 
少 ， 所 以 这 种 编码 的 方式 更 好 。 但 为 什么 这 是 一 种 最 优 的 前 缀 码 呢 要 回答 这 个 问题 ， 首 先 要 定 
义 树 的 加 权 外 部 路 径 长 度 这 个 概念 ， 它 是 所 有 叶子 结 点 的 权重 ( 频率 ) 和 深度 (请 见 1.5.2.5 节 ) [823 
之 积 的 和 。 B32 














命题 T。' 对 于 任意 前 级 码 ， 编 码 后 的 比特 字符 串 的 长 度 等 于 相应 单词 查找 树 的 加 权 外 部 路 径 
长 度 。 


证 明 。 每 个 叶子 结 点 的 深度 就 是 将 该 叶子 结 点 的 字符 编码 所 需 的 比特 数 。 因 此 ， 加 权 外 部 路 
径 长 度 就 是 编码 后 的 比特 字符 串 的 长 度 : 它 等 于 所 有 字符 的 出 现 次 数 和 字符 的 编码 长 度 之 积 
的 和 。 


在 示例 中 ， 有 一 个 叶子 结 点 的 距离 为 2 ( SP， 出 现 频率 为 11 ) ， 三 个 距离 为 3 (e、s 和 t, 总 
频率 为 19 ) ， 三 个 距离 为 4 (w、o 和 i， 总 频率 为 10 ) ， 五 个 距离 为 5 (r、f、h、m 和 a， 总 频率 
为 9) ， 两 个 距离 为 6 (LF 和 b， 总 频率 为 2) ， 因 此 综合 为 2x 11+3 x 19+4 x 10+5 x 9+6 x 2=176。 
这 与 输出 的 比特 字符 串 的 长 度 预期 相等 。 


命题 U。 给 定 一 个 全 有 个 符号 的 集合 和 它们 的 频率 ， 霍 夫 曼 算法 所 构造 的 前 级 码 是 最 优 的 。 


证 明 。 数 学 归纳 法 。 假 设置 夫 曼 编码 对 于 任意 规模 小 于 的 符号 集合 都 是 最 优 的 。 设 7 是 用 
答 夫 曼 算法 计算 并 编码 符号 集 和 相应 的 频率 si),…:(sn1D) 所 得 到 的 输出 ， 并 用 WT,) 表示 输 
出 的 总 长 度 ( 单词 查找 树 的 加 权 外 部 路 径 长 度 ) 。 假 设 Ga1) 和 (sn /)) 是 最 先 被 选中 的 两 个 符 
号 ,那么 算法 接 下 来 将 计算 (sf) 和 (ss/) 被 (s*,/,) 兰 代 后 的 +-1 个 符号 的 集合 的 编码 以 输 
出 Tw*， 其 中 s* 表示 深度 为 d 的 某 个 叶子 结 点 中 的 新 符号 。 可 以 注意 到 : 
WOTW=WOTH) -dG H+ AD GHf =WOTI HG) 
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现在 ， 假 设 Csi.7i)…-s。 7D) 有 一 村 最 优 的 高 度 为 的 单词 查找 树 T。 注 意 , (5 和 (ss/) 的 
深度 必然 都 是 h ( 否则 将 它们 和 深度 为 hh 的 结 点 交换 就 可 以 得 到 一 棵 加 权 外 部 路 径 长 度 更 小 的 
单词 查找 树 ) 。 另 外 ， 通 过 将 sp 了 )) 和 (ss i) 的 兄弟 结 点 交换 可 以 假设 (sf)) 和 (sh 万 ) 是 兄 
弟 结 点 。 现 在 ， 考 虑 将 它们 的 父 结 点 将 换 为 (S*, 太 /) 所 得 到 的 树 T*。 注 意 ( 用 同样 的 方法 可 以 
得 到 ) WD=WOTY)+G #f)。 
根据 归纳 法 ，Tw* 是 最 优 的 ， 即 ATw*) < WCT*)。 因 此 有 : 

WOTO)=WOTH FG AH) < WO + =WT) 
因为 了 是 最 优 的 ， 等 号 必然 成 立 ， 因 此 Th 也 是 最 优 的 。 


每 当 一 个 结 点 被 选中 时 ， 也 可 能 有 若干 个 结 点 和 它 的 权重 相同 。 替 夫 曼 算法 并 没有 说 明 如 
何 区 别 它们 ,也 没有 说 明 应 该 如 何 确定 子 结 点 的 左右 位 置 .不 同 的 选择 会 得 到 不 同 的 堆 夫 曼 编码 ， 
但 用 它们 将 信息 编码 所 得 到 的 比特 字符 串 在 所 有 前 组 码 中 都 是 最 优 的 。 
5.5.6.9 ” 写 入 和 读 取 单 词 查找 树 

我 们 已 经 强调 过 ， 图 5.5.13 中 所 显示 出 的 空间 节约 并 不 准确 ， 因 为 没有 单词 查找 树 被 压缩 的 比特 
流 是 无 法 被 解码 的 。 所 以 ， 我 们 必须 将 输出 比特 字符 串 中 的 单词 查找 树 的 成 本 考虑 进来 。 对 于 较 长 的 
输入 ， 这 个 成 本 相对 较 小 。 但 为 了 保证 数据 压缩 流程 的 完整 ， 必 须 在 压缩 时 将 树 写 入 比特 流 并 在 展开 
时 读 取 它 。 怎 样 才能 将 一 棵 单词 查找 树 编码 为 比特 流 并 展开 它 呢 ?其 实 ， 只 要 基于 单词 查找 树 的 前 序 
遍历 ， 这 两 个 任务 都 只 需要 很 简单 的 递归 即 可 完成 。 下 面 框 注 中 的 writeTrie() 方法 会 按照 前 序 遍 
历 单词 查找 树 ， 当 它 访问 的 是 一 个 内 部 结 点 时 ， 它 会 写 人 一 个 比特 0; 当 它 访问 的 是 一 个 叶子 结 点 时 ， 
它 会 写 人 一 个 比特 1， 紧 接着 是 该 叶子 字符 的 8 位 ASCI[ 编 码 ABRACADABRANAI 的 
霜 夫 曼 树 的 比特 字符 串 编码 如 图 5.5.14 所 示 。 第 一 位 是 0， 对 应 着 根 结 点 ;下 一 个 遇 到 是 含有 A 的 叶 
子 结 点 ， 因 此 下 一 位 为 1， 紧 接着 是 01000001， 即 “A” 的 8 位 ASCII 编码 。 下 两 位 均 为 0， 因为 遇 
到 的 都 是 两 个 内 部 结 点 ， 等 等 。 相 应 的 readTrie() 如 框 注 所 示 。 它 从 比特 字符 串 中 重新 构造 了 单词 
查找 树 : 首先 读 取 一 个 比特 以 得 到 当前 结 点 的 类 型 ， 如 果 是 叶子 结 点 ( 比特 为 1 ) 那么 就 读 取 字符 的 
编码 并 创建 一 个 叶子 结 点 ， 如 果 是 内 部 结 点 ( 比特 为 0) 那么 就 创建 一 个 内 部 结 点 并 (递归 地 ) 继续 
构造 它 的 左右 子 树 。 请 一 定 要 理解 这 些 方法 : 它们 的 简洁 性 有 时 是 有 欺骗 性 的 。 









private static void 
writeTrie(Node x) 
人 { // 输出 单词 查找 树 的 比特 字符 事 
if (x.isLeafO)) 
{ 
BinaryStdOut.write(true); 
BinaryStdOut.write(x.ch); 








return; 
结 点 
Binarystdout .writeCfalse); BM 
writeTrie(x. left); 0 0 1000010101010000110101010010101000010 
writeTrie(x.right); 3 全 4 ! 一 一 内 部 结 点 


将 单词 查找 树 写 为 比特 字符 串 图 5.5.14 ”使 用 前 序 人 遍历 将 一 棵 单词 查找 树 编码 为 比特 流 


5.5 


private static Node readTrieO) 
if (BinaryStdIn. readBoolean()) 
return new Node(BinaryStdIn.readChar(), 0, null, nul11); 
return new Node('\0', 0, readTrie(), readTrieO); 
 : 


从 比特 流 的 前 序 表示 中 重建 单词 查找 树 


5.5.6.10 ” 霍 夫 曼 压缩 的 实现 
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算法 5.10 加 上 之 前 讨论 过 的 buildcode() 、buildTrieO 、readTrie() 和 write-TrieO (以 
及 一 开始 展示 的 expand() 方法 ) ， 就 是 起 夫 曼 压 缩 算法 的 完整 实现 。 为 了 展开 前 文 对 算法 的 概述 ， 


我 们 将 需要 压缩 的 比特 流 看 作 8 位 编码 的 Char 值 流 并 将 它 按照 如 下 方法 压缩 : 
口 读 取 输入 ; 
口 将 输入 中 的 每 个 char 值 的 出 现 频 率 制 成 表格 ; 
口 根据 频率 构造 相应 的 堆 夫 曼 编码 树 ; 
口 构造 编译 表 ， 将 输入 中 的 每 个 char 值 和 一 个 比特 字符 串 相关 联 ; 
口 将 单词 查找 树 编码 为 比特 字符 串 并 写 人 输出 流 ; 
口 将 单词 总 数 编码 为 比特 字符 串 并 写 人 输出 流 ; 
口 使 用 编译 表 翻译 每 个 输入 字符 。 
要 展开 一 条 编码 过 的 比特 流 ， 步 又 如 下 : 
口 读 取 单词 查找 树 ( 编码 在 比特 流 的 开头 ) ; 
口 读 取 需要 解码 的 字符 数量 ; 
口 使 用 单词 查找 树 将 比特 流 解码 。 


答 夫 曼 压缩 算法 含有 4 个 递归 方法 处 理 单词 查找 树 ， 整 个 压缩 过 程 需要 7 步 ， 是 我 们 学 习 的 较 


为 复杂 的 算法 之 一 ， 请 见 图 5.5.15。 但 因为 效率 高 ， 它 也 是 应 用 最 广泛 的 算法 之 一 。 
算法 5.10 霍 夫 曼 压 缩 
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public class Huffman 

{ 
private static int R = 256;  // ASCII 字 母 表 
// Node 内 部 类 请 见 5.5.6.4 节 框 注 “单词 查找 树 的 结 上 
// 其 他 辅助 方法 和 expand () 方 法 请 见 正文 





public static void compress() 
{ 
// 读 取 输入 
String s = BinaryStdIn. readString(); 
char[] input = s.toCharArrayO; 
// 统计 频率 
int[] freq = new int[R]; 
for (int i = 0; 1 < input.length; i++) 
freq[input[i]]++; 
// 构造 塞 夫 楼 编码 树 
Node root = buildTrie(freq); 
// (递归 地 ) 构造 编译 表 
String[] st = new String[R]; 


bui1dCode(st，root，”); 


// (递归 地 ) 打印 解码 用 的 单词 查找 树 
writeTrie(root); 


// 打印 字符 总 考 
BinaryStdOut .write(input. length); 


// 使 用 窒 夫 更 编码 处 理 输入 
for (int i = 0; 1 < input.length; i++) 
{ 
String code = st[input[i]]; 
for (int j = 0; j < code.lengthO; j++) 
if (code.charAt(j) = ) 
BinaryStdOut.write(true); 
else BinaryStdOut.write(false); 
} 
BinaryStdOut.closeO; 





} 
[836| 这 段 短 夫 曼 编码 算法 的 实现 构造 了 一 棵 清晰 的 编码 单词 查找 树 并 使 用 了 前 文 所 述 的 各 种 辅助 方法 。 








测试 用 例 (96 位 ) 


% more abra.txt 
ABRACADABRA! 


% java Huffman - < abra.txt | java BinaryDump 60 

010100000100101000100010000101010100001101010100101010000100 
000000000000000000000000000110001111100101101000111110010100 
120 位 ~ 一 压缩 率 120/96=125%， 原 因 是 字典 查找 译 需 要 59 位 ， 字 符 总 数 需 要 32 位 


正文 中 的 例子 (408 位 ) 
% more tinytinyTale.txt 
it was the best of times it was the worst of times 


% java Huffman - < tinytinyTale.txt | java BinaryCump 64 、 
0001011001010101110111101101111100100000001011100110010111001001 
0000101010110001010110100100010110011010110100001011011011011000 
0110111010000000000000000000000000000110011101111101001011011100 
0111111001000011010110001001110100111100001111101111010000100011 
0111110100101101110001111110010000100100011101001001110100111100 
00111110111101000010010101000000 

352 位 一 压缩 率 352/408=86%， 尽 管 字典 查找 树 占用 了 137 位 ， 字 符 总 数 占用 了 32 位 


% java Huffman - < tinytinyTale.txt | java Huffman + 
it was the best of times it was the worst of times 


《双城记 》 的 第 一 章 








下 四 


码 压缩 和 展开 字 节 流 
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45056 位 
% java Huffman - < medTale.txt | java PictureDump 512 47 











一 一 压缩 率 23912/45056=53% 


《双城记 》 全 文 
% java BinaryDump 0 < tale.txt 
5812552 位 


% java Huffman - < tale.txt > tale.txt.huf 

% java BinaryDump 0 < tale.txt.huf 

3043928 位 。。 ~ 一 压缩 率 3043928/5812552=52% 

图 5.5.15 使 用 霍 夫 曼 编码 压缩 和 展开 字 节 流 ( 续 ) [837| 
乱 夫 曼 压缩 算法 流行 的 一 个 原因 是 ， 不 仅 对 于 自然 语言 文本 ， 它 对 各 种 类 型 的 文件 都 有 效果 。 

我 们 在 编写 方法 的 代码 时 十 分 小 心 ， 以 保证 它 能 够 正确 处 理 8 位 字符 可 能 表示 的 任意 8 位 值 。 换 句 
对 于 我 们 在 本 节 中 讨论 过 的 其 他 几 种 类 型 的 文件 , 图 5.5.16 
压缩 与 定 长 编码 以 及 游程 编码 相 比 仍然 十 分 具有 竞争 力 ， 尽 管 这 些 
] 设 计 的 。 理 解 逢 去 曼 编码 在 这 些 领 域 的 优越 性 能 是 十 分 有 帮助 的 。 对 
于 基因 组 数据 ， 霜 夫 曼 压 上 发 现 了 双 位 编码 。 因 为 4 种 字符 的 出 现 频率 基本 相同 ， 因 此 逢 夫 
曼 编码 树 是 平衡 的 ， 每 个 字符 分 配 到 的 都 是 一 个 两 位 的 编码 。 在 游程 编码 的 示例 中 ，00000000 
和 11111111 都 可 能 是 出 现 最 频繁 的 字符 ， 因此 它们 的 编码 可 能 只 有 2 ~ 3 位 ， 这 样 就 能 够 大 幅 
度 地 压缩 输入 数据 。 


病毒 (50 000 位 ) 















算法 是 为 某 些 类 型 的 文件 专 


% java Genome - < genomeVirus.txt | java PictureDump 512 25 


这 二 ME 











12536 位 
% java Huffman - < genomeVirus.txt | java PictureDump 512 25 







pe GN 
en NE 


12576 bits~ 一 稚 夫 县 编 码 只 比 自 义 的 双 位 编码 多 使 用 了 40 个 比特 





位 图 (1536 位 ) 
% java RunLength - < q32x48.bin | java BinaryDump 0 
1144 位 


% java Huffman ~- < q32x48.bin | java BinaryDump 0 
816 位 ~ 一 霍 夫 曼 压缩 算法 比 自 定义 算法 使 用 的 比特 数 少 29% 
更 高 分 辩 率 的 位 图 (6144 位 ) 

% java RunLength - < q64x96.bin | java BinaryDump 0 
2296 位 


% java Huffman  - < q64x96.bin | java BinaryDump 0 
2032 位 。 ~ 一 对 于 更 高 的 分 辩 素 ， 差 距 缩小 到 11% 





图 5.5.16 用 和 霍 夫 曼 编 码 压缩 和 展开 基因 组 和 位 图 数据 838 











550 > 第 5 章 字 符 串 


除了 霍 夫 曼 压缩 算法 ， 另 一 种 值得 一 提 的 选择 是 20 世纪 70 年 代 未 至 80 年 代 初 由 A.Lempel、 
I.Ziv 和 工 Welch 发 明 的 一 种 算法 。 它 的 应 用 也 非常 广泛 ， 因 为 它 的 实现 简单 ， 而 且 也 适用 于 多 种 类 
型 的 文件 。 

这 种 算法 的 基本 思想 和 霍 夫 曼 编码 的 基本 思想 相反 。 霍 夫 曼 算法 是 为 输入 中 的 定 长 模式 产生 一 
张 变 长 的 编码 编译 表 ， 但 这 种 方法 是 为 输入 中 的 变 长 模式 生成 一 张 定 长 的 编码 编译 表 。 这 种 方法 的 
另 一 种 令 人 惊讶 的 特性 在 于 ， 和 逢 夫 曼 编码 不 同 ， 输 出 中 不 需要 附 上 这 张 编译 表 。 
5.5.6.11 ”LZW 压缩 算法 

为 了 说 明 这 种 算法 的 基本 思想 ， 先 来 看 一 个 数据 压缩 的 示例 。 假 设 需要 读 取 一 列 由 7 位 ASCH 
编码 的 字符 组 成 的 输入 流 并 将 它们 写 为 一 条 8 位 字 节 的 输出 流 。 ( 在 实际 应 用 中 使 用 的 参数 值 一 般 
都 会 更 大 一 一 实现 中 使 用 的 是 8 位 的 输入 和 12 位 的 输出 。 ) 我 们 将 输入 字 节 称 为 字符 ， 输入 的 字 
节 序列 称 为 字符 囊 ， 输 出 字 节 称 为 编码 ， 尽 管 这 些 术语 在 其 他 情况 下 的 意义 有 所 不 同 。 LZW 压缩 
算法 的 基础 是 维护 一 张 字符 串 键 和 ( 定 长 ) 编码 的 编译 表 。 在 符号 表 中 将 128 个 单字 符 键 的 值 初始 
化 为 8 位 编码 ， 即 在 每 个 字符 的 7 位 值 前 添加 一 个 0。 为 了 简单 明了 ， 用 十 六 进 制 数字 来 表示 编码 
的 值 ， 这 样 ASCIL 的 A 的 编码 即 为 41，R 的 编码 为 2， 等 等 。 我 们 将 80 保留 为 文件 结束 的 标志 并 
将 其 余 的 编码 值 (81 ~ FF ) 分 配给 在 输入 中 过 到 的 各 种 子 字符 串 ， 即 从 81 开始 不 断 为 新 键 赋予 更 
大 的 编码 值 。 为 了 压缩 数据 ， 只 要 输入 还 未 结束 ， 就 会 不 断 进行 以 下 操作 ， 

口 找 出 未 处 理 的 输入 在 符号 表 中 最 长 的 前 级 字符 串 s; 

口 输 出 s 的 8 位 值 (编码 ) : 

口 继续 扫描 s 之 后 的 一 个 字符 c; 

口 在 符号 表 中 将 sfc ( 连接 s 和 < ) 的 值 设 为 下 一 个 编码 值 。 

在 后 面 的 几 步 中 ,我 们 需要 继续 查看 输入 中 的 下 一 个 字符 才能 构造 字典 中 的 下 一 个 条 目 ， 因 
此 将 这 个 字符 < 称 为 前 脆 ( lookahead ) 字符 。 现 在 ， 当 用 尽 了 编码 值 (将 FF 赋 予 了 某 个 字符 串 ) 

539] 之 后 暂时 只 能 停止 向 符号 表 中 添加 新 的 条 目 一 我 们 会 在 稍 后 讨论 其 他 策略 。 

5.5.6.12 LZW 压缩 举例 

下 表 所 示 的 是 LZW 算法 压缩 样 例 输入 A B RACADABRABRABRA 的 详细 过 程 。 
对 于 前 7 个 字符 ,匹配 的 最 长 前 组 仅 为 1 个 字符 ， 因 此 输出 这 些 字符 所 对 应 的 编码 ， 并 将 编码 81 
到 87 和 产生 的 7 个 两 个 字符 的 字符 串 相 关联 。 然 后 我 们 发 现 AB 匹配 了 输入 的 前 级 ( 于 是 输出 81 
并 将 ABR 添加 到 符号 表 中 ) ， 然 后 是 RA ( 输出 83 并 添加 RAB ) ，BR( 输出 82 并 添加 BRA ) 和 ABR 
(输出 88 并 添加 ABRA ) ， 最 后 只 剩 下 A (输出 41， 请 见 图 5.5.17) 。 




















输 AA BB RA CA 0D A Bs RA Se Rk A ee gf A er 


输出 4 2 5 4 9 4 4 1 83 82 88 41 80 


BRABA BRA SA 
ABR A 8B ABRA BB 


图 5.5.17 LZW 算 法 压 编 A BRACADABRABRABRA 
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输入 为 17 个 7 位 的 ASCI[ 字 符 ， 总 共 119 位 ; 输出 为 12 个 8 位 的 编码 ， 总 共 96 位 一 一 压缩 
比 为 82%， 即 使 这 只 是 个 很 小 的 例子 。 
5.5.6.13 ”LZW 的 单词 查找 树 

LZW 压缩 算法 含有 两 种 符号 表 操作 : 

口 找到 输入 和 符号 表 的 所 有 键 的 最 长 前 级 匹配 ; 

口 将 匹配 的 键 和 前 瞻 字 符 相连 得 到 一 个 新 键 ， 将 新 键 和 下 一 个 编码 关联 并 添加 到 符号 表 中 。 

5.2 节 中 介绍 的 单词 查找 树 数据 结构 完全 是 为 这 些 
操作 量 身 定做 的 。 对 于 上 一 个 示例 ， 它 的 单词 查找 树 表 
示 如 图 5.5.18 所 示 。 要 查找 最 长 前 级 匹配 ， 从 根 结 点 开 
始 遍历 树 ， 按 照 结 点 的 标签 和 输入 字符 匹配 ;在 添加 一 
个 新 编码 时 ， 先 创建 一 个 用 新 编码 和 前 脆 字 符 标 记 的 结 
点 并 将 它 和 查找 结束 的 结 点 相关 联 。 在 实践 中 , 为 了 节 
省 空间 我 们 使 用 的 是 5.2 节 中 介绍 的 三 向 单词 查找 树 。 
值得 一 提 的 是 这 里 对 单词 查找 树 的 使 用 与 堆 夫 曼 编码 
的 不 同 : 对 于 堆 夫 曼 编码 ， 使 用 单词 查找 树 是 因为 任意 
编码 都 不 会 是 其 他 编码 的 前 级 ; 但 对 于 LZW 算法 ,使 
用 单词 查找 树 是 因为 每 个 由 输入 字符 串 得 到 的 键 的 前 。 图 5.5.18 LZW 算法 的 编译 表 的 单词 查找 
绥 也 都 是 符号 表 中 的 一 个 键 。 村 40 
5.5.6.14 ”LZW 压缩 的 展开 

如 示例 所 示 ，LZW 压缩 的 展开 所 需 的 输入 是 一 系列 8 位 编码 ， 而 输出 则 是 一 个 7 位 ASCI[ 字 
符 组 成 的 字符 串 。 在 展开 时 ， 我 们 会 维护 一 张 关 联 字符 串 和 编码 值 的 符号 表 ( 这 张 表 的 逆 表 是 压缩 
时 所 用 的 符号 表 ) 。 在 这 张 表 牛 加 入 00 到 7F 和 所 有 单个 ASCII 字符 的 字符 串 的 关联 条 目 ， 将 第 一 
个 未 关联 的 编码 值 设 为 81 ( 80 保留 为 文件 结尾 的 标记 ) ,将 保存 了 当前 字符 串 的 变量 val 设 为 仿 
有 第 一 个 字符 的 字符 串 ， 在 过 到 编码 80 (文件 结束 ) 之 前 不 断 进行 以 下 操作 ， 

口 输出 当前 字符 串 val; 

口 从 输入 中 读 取 一 个 编码 x; 

口 在 符号 表 中 将 s 设 为 和 x 相关 联 的 值 ; 

口 在 符号 表 中 将 下 一 个 未 分 配 的 编码 值 设 为 val+fc， 其 中 <c 为 s 的 首 字母 ; 

口 将 当前 字符 串 val 设 为 s。 

这 个 过 程 比 压缩 更 加 复杂 ， 原 因 来 自 于 前 用 字符 : 需要 读 取 下 一 个 编码 来 得 到 和 它 相关 联 的 字 
符 串 的 首 字母 , 这 使 得 整个 过 程 不 同步 。 对 于 前 7 个 编码 , 只 需要 在 符号 表 中 查找 并 输出 相应 的 字符 ， 
然后 多 读 取 一 个 字符 并 在 符号 表 中 添加 一 个 两 个 字符 的 字符 串 的 条 目 。 这 和 之 前 是 相同 的 。 然 后 读 
到 81 ( 输出 AB 并 向 符号 表 中 添加 ABR ) ， 然 后 是 83 ( 输出 RA 并 添加 RAB ) ，82 ( 输出 BR 并 添加 
BRA ) ，88 ( 输出 ABR 并 添加 ABRA ) ,然后 只 剩 下 41。 最 终 会 遇 到 文件 结束 的 标记 80 ( 因此 输出 A ) 。 

这 个 过 程 结束 后 ， 就 已 经 如 期 写 出 了 原始 的 输入 ， 并 且 构 造 了 一 张 和 压 缩 时 相同 的 符号 表 ( 只 是 键 
和 值 的 位 置 对 调 了 ,请 见 图 5.5.19 ) 。 注意 ,我们 也 可 以 使 用 一 个 简单 的 字符 串 数组 来 表示 符号 表 ， 
索引 为 编码 。 
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841 图 5.5.19 LZW 算法 对 41 42 52 41 43 41 44 81 83 82 88 41 80 的 展开 











算法 5.11 LZW 算法 的 压缩 





public class LZW 


{ 
private static final int R = 256; // 输入 字符 数 
private static final int L = 4096; // 编码 总 数 =2A12 
private static final int W = 12; // 编码 宽度 


public static void compress() 


{ 
String input = BinaryStdIn.readStringO; 
TST<Integer> st = new TST<Integer>O); 


for (int i = 0; i < R; i++) 
st,put("”+ (char) i, i); 
int code = R+1; // R 为 文件 结束 (EOF) 的 编码 


while Cinput. length() > 0) 


和 
String s = st.longestPrefix0f(input); // 找到 匹配 的 最 长 前 组 
BinaryStdOut.write(st.get(s), W); // 打印 出 5 的 编码 
int t = Ss.lengthO; 
if (t < input.length() && code < L)  // 将 s 加 入 符号 表 
st.putCinput. substring(0, t + 1), code++); 
input = input.substring(t); // 从 输入 中 读 取 5 
} 
BinaryStdOut.write(R, W); // 写 入 文件 结束 标记 
BinaryStdOut.closeO; 


} 


public static void expand() 
// 请 见 算法 5.11( 续 ) 
} 


Lempel-Ziv-Welch 数据 压缩 算法 的 这 份 实现 的 输入 为 8 位 的 字 节 流 ， 输 出 为 12 位 编码 ， 适 用 于 任意 
大 小 的 文件 。 对 于 较 小 的 样 例 输 入 , 它 所 产生 的 编码 和 在 正文 中 所 讨论 的 类 似 : 单字 符 的 编码 的 开头 为 0， 
其 他 编码 从 100 开始 。 
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% more abraLZW.txt 
ABRACADABRABRABRA 


% java LZW - < abraLZW.txt | java HexDump 20 
04 10 42 05 20 41 04 30 41 04 41 01 10 31 02 10 80 41 10 00 
160 位 





5.5.6.15 ”特殊 情况 

在 刚才 描述 的 过 程 中 ， 存 在 这 一 个 小 小 的 问题 。 常常 只 有 基于 以 上 描述 实现 了 这 个 过 程 的 同学 
(以 及 有 经 验 的 程序 员 ! ) 才能 发 现 它 。 这 个 问题 就 是 前 瞻 过 程 所 得 到 的 字符 可 能 和 当前 子 字符 串 
的 开头 字符 相同 ， 如 图 5.5.20 所 示 。 在 这 个 例子 中 ， 输 入 字符 串 : 

ABABABA 
如 图 5.5.20 上 方 所 示 ， 被 压缩 得 到 的 输出 编码 为 : 
41 42 81 83 80 
在 展开 时 ， 首 先 会 得 到 编码 41 并 输出 A， 然 


后 读 取 42 得 到 前 瞻 字符 并 将 AB 和 81 插 入 符号 表 ; 7 

输出 42 所 对 应 的 B， 读 取 81 得 到 前 睁 字符 并 将 ee ee Ee , 

BA 和 82 插入 符号 表 ; 输出 81 所 对 应 的 AB。 到 We 

目前 为 止 事情 进展 得 不 错 。 但 当 我 们 接 下 来 取得 Am 站 中 

了 编码 83 并 希望 得 到 前 瞻 字 符 时 ， 就 被 卡 住 了 ， eaA aa AbA 上 

因为 读 取 编码 所 要 补 全 的 符号 表 条 目 正 是 831 幸 

运 的 是 ， 检 查 (只 有 在 读 取 的 编码 和 和 需要 完成 的 如 由 入 

编码 条 目 相同 时 才 会 出 现 ) 并 修正 (此 时 , 前瞻 和 A 日 as ? —— ga 

字符 必然 是 当前 字符 串 的 首 字母 ， 因 为 它 就 是 下 人 于 

个 将 被 输出 的 字符 ) 这 种 情况 并 不 困难 。 在 这 个 0 

例子 中 ， 前 瞻 字 符 必然 是 A ( ABA 的 首 字母 ) 。 因 下 个 输出 字符 芭 前 睛 字符 

上 下 一 个 被 输出 的 字符 串 和 符号 表 中 83 到 值 都 图 $520 LZW 算法 的 扩展 ， 特殊 情况 
ABA。 

5.5.6.16 实现 


经 过 这 些 描述 之 后 ,实现 LZW 编码 就 很 简单 了 ， 如 算法 5.11 所 示 (expand0 方法 的 实现 请 
见 算法 5.11 ( 续 ) ) 。 这 段 实现 接受 8 位 字 节 流 作为 输入 ( 因此 能 压缩 任意 文件 ， 而 不 仅仅 是 字符 
种 ) ， 并 产生 12 位 编码 的 输出 流 ( 因此 字典 会 非常 大 ， 压 缩 率 也 会 更 好 ) 。 这 些 值 指定 在 ( final 
修饰 的 ) 实例 变量 R、L 和 W 中 。 在 compress 0 方法 中 使 用 了 一 棵 三 向 单词 查找 树 〔 请 见 52 节 ) 
来 表示 编译 表 ( 利用 单词 查找 树 来 支持 高 效 的 1ongestprefixof() 操作 ) ， 在 expand() 方法 中 
使 用 了 一 个 字符 串 数组 来 表示 逆向 编译 表 。 这 样 ，compressC) 和 expand() 方法 的 代码 就 不 完全 
与 正文 中 的 描述 一 一 对 应 了 。 这 些 方法 非常 高 效 。 对 于 某 些 文件 ， 我 们 还 可 以 通过 在 编译 表 满 时 将 
其 清空 并 重用 全 部 编码 来 改进 它们 。 这 些 改 进 以 及 评估 它们 的 性 能 所 需 的 实验 都 留 作 本 节 最 后 的 
练习 。 
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算法 5.11 ( 续 ) ”LZW 算法 的 展开 





public static void expand() 
Le 
String[] st = new String[L]; 


int 1; // 下 一 个 待 补 全 的 编码 值 


;i < Ri i++) // 用 字符 初始 化 编译 表 
+ (char) i; 
// (未 使 用 ) 文件 结束 标记 (EOF) 的 前 办 字符 







int codeword = BinaryStdIn.readInt(W); 

String val = st[codeword]; 

while (true) 

{ 
BinaryStdOut .write(val); // 输出 当前 子 字符 事 
codeword = BinaryStdIn.readInt(W); 
if (codeword == R) break; 


String s = st[codeword]; // 获取 下 一 个 编码 
if (i == codeword) // 如 果 前 腾 字 符 不 可 用 
5s = val + val.charAt(0); A/ 根据 上 一 个 字符 事 的 首 字母 得 到 编码 的 字符 球 
if (i < 1) 
St[i++] = val + S.CharAt(0); // 为 编译 表 添加 新 的 条 有 目 
val = Si // 更 新 当前 编码 
} 
BinaryStdOut.closeQO); 


} 


这 段 代码 实现 了 Lempel-Ziv-Welch 算法 的 展开 。 展 开 比 压缩 更 加 复杂 ， 因 为 需要 从 下 一 个 编码 中 获 
取 前 瞻 字 符 ， 并 且 存 在 前 瞻 字 符 可 能 不 可 用 的 复杂 情况 〈 请 见 正文 ) 。 


% java LZW - < abraLZW.txt | java LZW + 
ABRACADABRABRABRA 


% more ababLZW.txt 
ABABABA 


% java LZW - < ababLZW.txt | java LZW + 
ABABABA 





和 以 前 一 样 , 请 花 一 点 时 间 仔细 研究 程序 和 图 5.5.21 给 出 的 LZW 算 法 压缩 的 实例 。 十 几 年 以 来 ， 
它 已 经 被 证 明 为 是 一 个 多 用 途 高 效率 的 压缩 算法 。 
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病毒 (50 000 位 ) 





二 a 了 
位 ~ 一 效果 不 如 双 位 编码 ， 因 为 重复 数据 很 少 





18 232 


位 图 (6144 位 ) 
% java RunLength - < q64x96.bin | java BinaryDump 0 
2296 位 


% java LZW - < q64x96.bin | java BinaryDump 0 
2824 位 一 一 效果 不 如 游程 编码 ， 因 为 文件 太 小 


《 双 城 计 》 全 文 (5 812 552 位 ) 


% java BinaryDump 0 < tale.txt 
5 812 552 位 


% java Huffman - < tale.txt | java BinaryDump 0 
3 043 928 位 


% java LZW - < tale.txt | java BinaryDump 0 
2 667 952 位 ”~ 一 压缩 率 2667952/5812552 = 46% (已 知 最 好 成 绩 ) 


图 5.5.21 采用 12 位 编码 的 LZW 算法 对 各 种 文件 的 压缩 和 展开 


图 答疑 


为 什么 需要 BinaryStdIn 和 BinaryStdOut ? 

这 是 在 便利 性 和 效率 之 间作 出 的 一 个 平衡 。StdIn 每 次 能 够 处 理 8 位 数据 ， 而 BinaryStdIn 必须 处 
理 每 一 位 数据 。 大 多 数 应 用 程序 处 理 的 都 是 字 节 流 ， 但 数据 压缩 是 个 例外 。 

为 什么 需要 close() 方法 ? 

有 这 个 要 求 的 是 因为 标准 输出 流 是 一 个 字 节 流 ， 因 此 BinaryStdOut 需要 知道 何 时 将 最 后 一 个 字 节 
对 齐 并 输出 。 

能 够 将 StdIn 和 BinaryStdIn 混用 吗 ? 

最 好 不 要 这 样 。 因 为 它们 都 和 系统 以 及 具体 的 实现 有 关 ， 谁 也 不 知道 会 出 现 什么 情况 。 我 们 的 实现 会 抛 
出 一 个 异常 。 但 从 另 一 方面 来 说 , 混用 Stdout 和 BinaryStdout 没有 问题 ( 我 们 的 代码 就 这 么 使 用 的 ) 。 
为 什么 在 Huffman 类 中 Node 类 是 静态 的 ? 

我 们 将 所 有 数据 压缩 算法 都 组 织 成 了 静态 方法 的 集合 ， 而 没有 实现 任何 数据 结构 。 

我 能 保证 数据 压缩 算法 至 少 不 会 将 比特 流 还 长 吗 ? 

你 可 以 直接 把 输入 复制 到 但 亿 ;要 某 种 标记 来 说 明 不 需要 使 用 任何 标准 的 数据 压缩 方法 就 
可 以 使 用 它 。 某 些 商业 数据 压缩 程序 有 时 会 作出 这 种 保证 ， 但 实际 上 这 种 保证 很 脆弱 并 且 远 远 不 具 
备 通用 性 。 事 实 上 ， 大 多 数 数据 压缩 算法 甚至 都 做 不 到 我 们 对 命题 S 的 第 一 种 证 明 方法 的 第 二 步 ， 
极 少 有 算法 能 够 进一步 压缩 其 自身 产生 的 比特 字符 串 。 
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5.5.1 
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请 看 下 表 所 示 的 4 种 变 长 编码 。 哪 些 编码 是 无 前 级 的 ? 哪些 编码 的 解码 方式 是 唯一 的 ? 对 于 解码 
方式 唯一 的 编码 ， 请 给 出 1000000000000 的 编码 结果 。 





符号 编码 1 编码 2 编码 3 编码 4 
A 0 0 1 1 
B 100 1 ol ol 
c 10 00 001 001 
D 1 11 0001 000 


给 出 一 个 非 前 级 码 但 解码 方式 又 是 唯一 的 编码 。 
答 : 任意 无 后 级 的 编码 都 是 解码 方式 唯一 的 编码 。 
一 个 即 非 前 缀 码 又 非 后 组 码 且 解码 方式 唯一 的 编码 。 
答 : {0011,011, 11, 1110} 或 {01, 10, 011, 110} 
{01, 1001, 1011, 111, 1110} 和 {01, 1001, 1011, 111, 1110} 的 解码 方式 是 唯一 的 吗 ?” 如 果 不 是 ， 找 出 
一 条 可 以 用 两 种 方式 解码 的 字符 串 。 
使 用 RunLength 处 理 本 书 网 站 上 的 文件 q128x192.bin。 被 压缩 后 的 文件 含有 多 少 比 特 ? 
将 入 个 符号 a 编码 需要 多 少 比特 ( 作为 X 的 函数 ) ? N 个 序列 abc 呢 ? 
给 出 用 游程 编码 、 替 夫 曼 编码 、LZW 编码 压缩 字符 串 aaavaaaaaaa,...( 含 有 N 个 a 的 字符 串 ) 
的 结果 ， 以 N 的 函数 表示 压缩 比 。 
给 出 用 游程 编码 、 堆 夫 曼 编码 、LZW 编码 压缩 字符 串 ab,abab,ababab,abababab,... (将 ab 
重复 入 次 得 到 的 字符 串 ) 的 结 昧 ， 以 N 的 函数 表示 压缩 比 。 
估计 游程 编码 、 替 夫 曼 编码 和 LZW 编码 处 理 长 度 为 N 的 随机 ASCH 字符 串 ( 任意 位 置 都 有 独立 
均等 的 几率 出 现任 意 字符 ) 的 压缩 比 。 
按照 正文 中 的 示意 图 的 样式 显示 使 用 Huffman 处 理 字符 串 it was the age of foolishness 
时 埠 夫 曼 编码 树 的 构造 过 程 。 压 缩 后 的 比特 流 需 要 多 少 比特 ? 
如 果 所 有 字符 均 来 自 一 个 只 有 两 个 字符 的 字母 表 ， 该 字符 串 的 替 夫 曼 编码 将 会 是 什么 ? 给 出 这 样 
的 一 个 长 度 为 N 的 字符 串 ， 使 得 堆 夫 曼 编码 得 到 的 结果 最 长 。 
假设 所 有 符号 出 现 的 概率 均 为 2 的 负 若干 次 方 ， 描 述 相应 的 霍 夫 曼 编 码 。 
假设 所 有 符号 出 现 的 概率 均 相等 ， 描 述 相应 的 替 夫 曼 编 码 。 
假设 需要 编码 的 所 有 字符 的 出 现 频 率 均 不 相同 。 此 时 的 替 夫 昌 编 码 树 是 唯一 的 吗 ? 
只 需 扩展 霍 夫 曼 算法 即 可 有 效 地 将 双 位 字符 编码 (使 用 四 向 树 ” ) 。 这 么 做 的 主要 优点 和 缺点 是 
什么 ? 
以 下 输入 经 过 LZW 编码 后 的 结果 是 什么 ? 
aTOBEORNOTTOBE 
bYABBADABBADABBADOO 
CAAAAAAAAAAAAAAAAAAAAA 


加 每 个 结 点 都 含有 4 条 链接 。 一 一 译 者 注 
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5.5.17 ”总结 LZW 编码 中 需要 特别 注意 的 情况 。 
解答 : 每 当 遇 到 形 如 cScSc 的 字符 串 时 都 会 出 现 这 种 情况 , 其 中 c 是 一 个 符号 而 S 是 一 个 字符 串 ， 
字典 中 已 经 含有 cS 但 没有 cSc。 

5.5.18 设 扩 是 第 4 个 斐 波 那 契 数 。 假 设 有 一 个 符号 序列 ， 其 中 第 上 个 符号 的 频率 为 扩 。 注 意 ， 
FtFyt…+FFwa-1。 给 出 相应 的 震 夫 晕 编 码 。 提 示 : 最 长 编码 的 长 度 为 N-1。 

5.5.19 证 明 ， 对 于 给 定 的 N 个 符号 的 集合 ， 至 少 存在 2” 种 不 同 的 震 夫 昌 编 码 。 

5.5.20 ”给 出 一 种 霍 夫 曼 编码 ， 使 得 输出 中 的 0 的 出 现 频率 比 1 要 高 得 多 。 
答 : 如 果 字 符 A 出 现 了 100 万 次 而 8 只 出 现 了 一 次 ,那么 将 A 的 编码 设 为 0，B 的 编码 设 为 1 即 可 。 

5.5.21 请 证 明 在 任意 震 夫 曼 编码 中 ， 最 长 的 两 个 编码 的 长 度 必然 是 相等 的 。 

5.5.22 ”请 证 明 替 夫 曙 编码 的 以 下 性 质 : 如 果 符 号 i 的 出 现 频 率 大 于 符号 j， 那 么 符号 i 的 编码 长 度 将 会 
小 于 等 于 符号 j 的 编码 长 度 。 

5.5.23 如果 将 用 霍 夫 曼 编码 得 到 的 字符 串 看 作 由 5 位 字符 组 成 的 字符 流 并 继续 用 震 夫 曙 编 码 处 理 它 ， 
结果 将 会 是 什么 ? 

5.5.24 按照 正文 中 示意 图 的 样式 显示 使 用 LZW 编码 处 理 以 下 字符 串 时 所 构造 的 编码 树 以 及 整个 压缩 和 
展开 的 过 程 。 
it was the best of times it was the worst of times 

图 提高 是 

5.5.25 定 长 定 宽 的 编码 。 实 现 一 个 使 用 定 长 编码 的 RLE 类 来 压缩 不 同 字符 较 少 的 ASCII 字 节 流 ， 将 编 
码 输 出 为 比特 流 的 一 部 分 。 在 compress() 方法 用 一 个 alpha 字 符 串 保存 输入 中 所 有 不 同 的 字母 ， 
用 它 得 到 一 个 Alphabet 对 象 以 供 compress() 方法 使 用 。 将 alpha 字符 串 (8 位 编码 再 加 上 它 
的 长 度 ) 添加 到 压缩 后 的 比特 流 的 开头 。 修 改 expand() 方法 ， 在 展开 之 前 先 读 取 它 的 字母 表 。 

5.5.26 重建 LZW 字典 。 修 改 LZW 算法 ， 当 字典 饱和 时 将 其 清空 。 这 种 方式 适合 某 些 应 用 程序 ， 因 为 
它 能 更 好 地 适应 输入 中 的 字符 变化 。 

5.5.27 较 长 的 重复 。 估 计 游 程 编码 、 乱 夫 曼 编码 和 LZW 编码 处 理 长 度 为 2N 的 一 条 字符 串 的 压缩 率 ， 


该 字符 串 由 长 度 为 N 的 一 条 随机 ASCII 字符 串 (请 见 练习 5.5.9 ) 重复 而 成 。 
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昌 上 有 条 6 章 阁 时 
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853 











在 现代 社会 中 , 计算 机 设备 无 处 不 在 。 在 过 去 的 几 十 年 中 ,我 们 世界 中 的 电子 设备 还 是 一 片 空白 ， 
但 现在 它们 已 经 成 为 数 十 亿 人 日 常 必 备 的 工具 。 今 天 的 手机 甚至 都 比 30 年 前 只 有 少数 人 才 有 权 使 
用 的 超级 计算 机 强大 若干 个 数量 级 。 这 些 设备 高 效 工作 的 背后 都 离 不 开 算法 ， 而 其 中 的 一 些 算法 本 
书 中 也 有 所 讨论 。 这 是 为 什么 呢 ? 因为 适 者 生存 。 可 扩展 的 〈 线性 的 和 线性 对 数 级 别 的 ) 算法 是 这 
个 过 程 的 核心 并 证 明了 高 效 算法 的 重要 性 。20 世纪 60 年 代 和 70 年 代 的 一 些 研究 者 用 这 些 算法 为 我 
们 的 今天 打下 了 基础 。 他 们 知道 , 可 扩展 的 算法 是 未 来 的 关键 , 而 过 去 几 十 年 的 发 展 也 证 明了 这 一 点 。 
现在 ， 基 础 设施 已 经 完备 ， 人 们 已 经 开始 利用 它们 达到 各 种 目的 。 正 如 B.Chazelle 所 说 ，20 世纪 是 
方程 的 世纪 ,但 21 世纪 是 算法 的 世纪 。 

本 书 中 讨论 的 基础 算法 只 是 一 个 开始 。 当 算法 能 够 成 为 大 学 中 的 一 门 独立 学 科 时 ， 这 一 天 就 快 
要 到 来 了 ( 也许 已 经 来 了 ) 。 在 商业 应 用 、 科 学 计算 、 工 程 、 运 筹 学 和 其 他 无 数 有 待人 们 探索 的 领 
域 中 ， 高 效 的 算法 都 能 使 原来 不 可 能 解决 的 问题 得 到 解决 。 本 书 的 重点 是 学 习 重要 而 实用 的 算法 。 
在 本 章 中 ,我 们 会 沿 着 这 条 路 继续 讨论 几 个 示例 ， 它 们 能 够 说 明 已 经 学 过 的 一 些 算法 在 高 级 实践 情 
景 中 的 作用 。 ( 还 包括 一 些 学 习 算 法 的 方法 。 ) 为 了 说 明 算法 的 影响 范围 ， 我 们 首先 列 出 算法 的 几 
个 重要 的 应 用 领域 ， 然 后 详细 讨论 几 个 有 代表 性 的 示例 并 介绍 算法 的 相关 理论 来 说 明 应 用 的 深度 。 
不 过 对 于 这 本 大 厚 书 来 说 ， 在 最 后 涉及 的 这 两 个 主题 都 是 介绍 性 的 ， 并 不 全 面 ， 实 际 生活 中 还 有 许 
多 同样 广泛 的 领域 、 同 样 重要 的 应 用 场景 、 同 样 有 影响 力 的 具体 问题 。 
商业 应 用 

互联 网 的 出 现 加 强 了 算法 在 商业 应 用 软件 中 的 核心 地 位 。 人 们 经 常 使 用 的 所 有 应 用 都 得 益 于 我 
们 已 经 学 过 的 许多 经 典 算法 : 

口 基础 设施 ( 操作 系统 、 数 据 库 、 通 信 ) ; 

口 应 用 程序 ( 电子 邮件 、 文 档 处 理 、 数 码 照片 ) ; 

口 出 版 ( 书籍、 杂志、 网 络 内 容 ) ; 

口 网 络 (无线 网 络 、 社 交 网 络 、 互 联网 ) ; 

口 交易 处 理 ( 金融 、 零 售 、 网 络 搜索 ) 。 

本 章 中 将 会 讨论 一 个 有 代表 性 的 示例 ， 即 B- 树 。 它 是 为 20 世纪 60 年 代 的 大 型 机 发 明 的 一 种 
复杂 的 数据 结构 ， 但 今天 它 仍然 是 现代 数据 库 系 统 的 基础 结构 。 此 外 ， 还 将 讨论 用 于 文本 索引 的 后 
缓 数 组。 
科学 计算 

自从 冯 “ 诺 依 曼 在 1950 年 发 明了 归并 排序 之 后 , 算法 在 科学 计算 领域 逐渐 起 到 了 重要 的 作用 。 
今天 的 科学 家 需要 处 理 大 量 的 实验 数据 。 他 们 在 同时 使 用 数学 模型 和 计算 模型 来 理解 自然 世界 ， 
包括 : 
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口 数学 计算 ( 多 项 式 、 和 矩阵 、 微 分 方程 ) ; 
口 数据 处 理 ( 实验 结果 和 观测 资料 ， 特 别 是 基因 组 学 ) ; 
口 计算 模型 和 模拟 。 
这 些 任务 都 可 能 需要 大 量 复杂 的 海量 数据 计算 。 在 科学 计算 领域 ， 本 章 中 会 详细 讨论 的 一 个 
经 典 示例 就 是 事件 驱动 模拟 问题 。 它 的 思想 是 维护 一 个 复杂 的 真实 世界 的 模型 并 根据 时 间 控 制 模 
型 中 发 生 的 变化 。 这 种 基础 方法 有 着 非常 多 的 应 用 。 此 外 还 将 讨论 一 个 基因 计算 领域 的 基础 数据 
处 理 问题 。 
工程 学 
现代 工程 学 的 基础 是 技术 ， 而 现代 技术 的 基础 是 计算 机 。 因 此 ， 算 法 能 够 发 挥 重要 作用 的 方面 
包括 : 
口 数学 计算 和 数据 处 理 ; 
口 计算 机 辅助 设计 和 生产 ; 854 
口 基于 算法 的 工程 设计 ( 网 络 、 控 制 系统 ) ; 
口 图 像 和 其 他 医学 系统 。 
工程 师 和 科学 家 使 用 的 许多 工具 和 方法 都 是 相同 的 。 讽 如 ， 科 学 家 用 计算 模型 和 模拟 来 理解 自 
然 世界 ;而 工程 师 用 计算 模型 和 模拟 来 设计 、 建 造 并 控制 他 们 所 制造 的 各 种 产品 。 
运筹 学 
运 著 学 领域 的 研究 者 和 实践 者 开发 了 各 种 数学 模型 并 用 它们 解决 了 许多 问题 包括; 
口 任务 调度 ; 
口 决策 ; 
口 资源 分 配 。 
4.4 节 中 的 最 短路 径 问题 就 是 一 个 经 典 的 运筹 学 问题 。 本章 会 再 次 讨论 它 并 介绍 最 大 流量 问题 。 
我 们 会 展示 规约 的 重要 性 并 讨论 它 对 于 问题 解决 (problem-solving ) 的 通用 模型 的 影响 ， 特 别 是 对 
运筹 学 中 核心 的 线性 规划 模型 的 影响 。 
算法 在 计算 机 科学 的 各 个 子 领域 中 都 有 着 重要 的 地 位 ， 它 的 应 用 领域 包括 ， 但 绝对 不 局 限于 
口 计算 几何 ; 
口 密码 学 ; 
口 数据 库 ; 
口 编程 语言 与 系统 
口 人 工 智能 。 
在 所 有 领域 中 ， 说 明 问题 并 找到 有 效 算法 和 数据 结构 来 解决 问题 都 是 非常 重要 的 。 我 们 已 经 学 
过 的 部 分 算法 是 可 以 直接 使 用 的 。 更 重要 的 是 ， 本 书 的 核心 内 容 ， 也 就 是 设计 、 实 现 和 分 析 算法 的 
一 般 方法 在 所 有 这 些 领域 中 都 已 经 被 成 功 地 验证 过 。 这 种 效应 已 经 从 计算 机 科学 扩散 到 了 许多 其 他 
领域 ,包括 体育 、 音 乐 、 语 言 学 、 金 融 、 神 经 科学 ， 等 等 。 
我 们 现在 已 经 学 习 了 许多 重要 且 实 用 的 算法 ,那么 理解 它们 之 间 的 相互 关系 就 变 得 很 必要 了 。 
在 本 章 的 (也 是 本 书 的 ! ) 结尾 我 们 会 简要 介绍 计算 理论 ， 重 点 是 不 可 解 性 (intractability ) 和 
P=NP? 这 个 问题 。 它 们 仍然 是 理解 实践 中 遇 到 的 各 种 问题 的 关键 。 855| 


6.0.1 事件 驱动 模拟 
我 们 的 第 一 个 示例 是 一 个 基础 的 科学 应 用 : 按照 弹性 碰撞 的 原理 模拟 粒子 系统 的 运动 。 科 学 家 
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通过 这 个 系统 可 以 理解 和 预测 物理 系统 的 性 质 。 这 个 模型 可 以 模拟 气体 中 分 子 的 运动 、 化 学 反应 的 
动态 过 程 、 原 子 扩散 、 最 密 堆积 问题 ( sphere packing ) 、 行 星 的 环 的 稳定 性 、 某 些 元 素 的 相 变 、 一 
维 自 引 力 体系 前 向 阵 面 传播 技术 等 许多 问题 。 它 可 应 用 的 范围 从 分 子 运 动 中 的 微小 亚 原子 粒子 到 天 
体 物 理学 中 巨大 的 星体 对 象 。 

讨论 这 个 问题 需要 一 些 高 中 物理 知识 、 一 些 软件 工程 的 知识 和 一 些 算法 知识 。 我 们 把 大 部 分 和 
物理 有 关 的 内 容留 作 练习 ， 而 主要 关注 使 用 基础 的 算法 工具 ( 基于 堆 的 优先 队列 ) ， 以 处 理 它 的 一 
个 实际 应 用 ， 将 不 可 能 的 计算 变 为 可 能 。 
6.0.1.1 刚性 球体 模型 

首先 介绍 一 个 理想 模型 ， 它 描述 的 是 原子 和 分 子 在 含有 以 下 性 质 的 容器 中 的 运动 : 

口 运动 的 粒子 与 墙 以 及 互相 之 间 的 碰撞 是 弹性 的 ; 

口 每 个 粒子 都 是 一 个 已 知 位 置 、 速 度 、 质 量 和 直径 的 球体 ; 

口 不 存在 其 他 外 力 。 

这 个 简单 的 模型 在 统计 力学 这 个 既 与 宏观 现象 ( 例如 温度 和 压力 ) 有 关 又 与 微观 现象 ( 例如 单 
个 原子 和 分 子 的 运动 ) 有 关 的 学 科 中 十 分 重要 。 麦 克 斯 维尔 和 玻 尔 兹 曼 使 用 这 个 模型 得 到 了 由 温度 
的 函数 表示 的 相互 碰撞 的 分 子 的 速度 分 布 , 爱 因 斯 坦 用 这 个 模型 解释 了 花粉 颗粒 在 水 中 的 布朗 运动 。 
不 存在 其 他 外 力 的 假设 意味 着 粒子 在 碰撞 之 前 是 在 做 匀速 直线 运动 。 我 们 也 可 以 通过 添加 其 他 作用 
力 来 扩展 这 个 模型 。 例 如 ， 如 果 加 上 摩擦 力 和 自 旋 ， 那 就 可 以 更 加 准确 地 描述 一 些 熟 悉 的 物理 运动 ， 
例如 台球 桌 上 的 台球 。 
6.0.1.2 ”时 间 驱 动 模拟 

我 们 的 主要 目标 是 维持 这 个 模型 ， 即 希望 能 够 记录 所 有 粒 
子 在 任意 时 间 内 的 位 置 和 速度 。 为 此 ， 需 要 计算 : 在 给 定 了 时 @、 
刻 1 时 的 所 有 粒子 的 位 置 和 速度 后 ， 青 给 出 dr 时间 之 后 ， 即 未 @ 
来 的 时 间 点 td 时 它们 的 位 置 和 速度 。 如 果 所 有 粒子 互相 之 间 
以 及 和 墙 的 距离 都 很 远 ， 那 么 计算 就 很 简单 了 : 因为 粒子 的 轨 
迹 是 一 条 直线 , 所 以 只 需要 用 粒子 的 速度 就 可 以 更 新 它 的 位 置 。 @ 
这 个 问题 的 挑战 在 于 要 考虑 碰撞 情况 。 一 种 解决 方法 叫做 时 间 @ 
驱动 模拟 ( 请 见 图 6.0.1 ) ， 它 基于 使 用 固定 长 度 的 dt。 在 每 时 刻 t+2dt 
次 更 新 时 ， 我 们 都 需要 检查 所 有 粒子 对 ， 判 定 它们 是 否 可 能 相 


时 刻 t+dt 


遇 ， 然 后 还 原 它们 的 第 一 次 碰撞 。 此 时 ， 我 们 将 会 更 新 两 个 粒 名 B 
子 的 速度 以 反映 出 碰撞 的 结果 ( 计算 方法 会 稍 后 讨论 ) 。 在 粒 

子 数 量 很 多 时 , 这 种 方式 的 计算 量 非常 大 : 如 果 灾 是 以 秒 计 (一 将 时 刻 倒 回 碰撞 发 生 的 时 候 
般 为 一 秒 的 若干 分 之 一 ) ， 它 模拟 N 个 粒子 的 系统 一 秒 钟 的 运 _ 

动 所 需 的 时 间 与 NW/dt 成 正比 。 这 种 成 本 太 昂贵 了 ( 比 平方 级 2 
别 的 算法 更 高 ) 一 一 在 一 般 的 应 用 中 ，N 都 会 非常 大 而 dr 会 非 


常 小 。dt 的 问题 在 于 如 果 它 太 小 ， 计 算 量 就 太 高 ， 但 如 果 它 太 
大 ， 那 就 可 能 错过 许多 次 碰撞 ， 请 见 图 6.0.2。 图 6.0.1 ”以 时 间作 为 驱动 的 模拟 
6.0.1.3 事件 驱动 模拟 

另 一 种 方法 是 仅 关注 碰撞 发 生 的 时 间 点 .重点 关注 下 一 次 碰撞 ( 因为 在 此 之 前 由 速度 计算 得 到 
的 所 有 粒子 的 位 置 都 是 有 效 的 ) 。 因 此 ， 我 们 可 以 使 用 一 个 优先 队列 来 记录 所 有 事件 。 事 件 是 未 来 
的 某 个 时 间 的 一 次 潜在 的 碰撞 ， 可 能 发 生 在 两 个 粒子 之 间 ， 也 可 能 发 生 在 粒子 和 墙 之 间 。 和 每 个 事 
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件 相关 联 的 优先 级 就 是 它 发 生 的 时 间 ， 因 此 当 从 优先 队列 中 太 小 ; 计算 量 太 大 
出 去 优先 级 最 低 的 元 素 时 ， 就 会 得 到 下 一 次 潜在 的 碰 擅 。 、 


6.0.1.4 ”碰撞 预测 一 
我 们 如 何 才能 识别 潜在 的 碰撞 呢 ? 粒子 的 速度 正好 提供 bd 

了 这 个 必要 的 信息 。 例 如 ,假设 在 单位 空间 中 ， 在 时 刻 +: 有 一 

个 半径 为 速度 为 (wv) 的 粒子 位 于 (rs 7,)。 假 设 墙 位 于 =] 大大， 可 能 错过 碰 接 

处 , 高 度 y 在 0 到 1 之 间 。 我 们 感 兴趣 的 是 运动 的 横向 分 量 ， » 

因此 注意 力 集中 在 位 置 的 x 分 量 x, 和 速度 的 x 分 量 v 上 。 如 ~ > 

果 w 是 负数 ,那么 粒子 的 轨迹 不 会 与 墙 体 相交 ， 但 如 果 v 是 >、 

正 数 ， 那 就 存在 一 个 粒子 和 墙 的 潜在 碰撞 。 将 例子 和 墙 的 间 Se 

距 (1-s-r,) 除 以 速度 的 x 分 量 (v)， 就 可 以 得 到 粒子 和 墙 的 碰 


擅 时 间 为 di-(1-s-r/ 上 个 时 间 单位 之 后 ， 此 时 粒子 的 位 置 将 为 。 图 602 驰 动 模拟 的 主要 问题 
(I=syytwd)， 除 非 它 在 之 前 又 擅 上 了 其 他 某 个 粒子 或 者 墙 ， 请 

见 图 603。 因 此 ， 我 们 就 可 以 向 优先 队列 中 插入 一 个 优先 级 为 rd 的 条 目 ( 以 及 一 些 描述 该 示例 和 
墙 的 碰撞 事件 的 信息 ) 。 墙 体 的 碰撞 着 测 计算 都 是 类 似 的 《请 见 练习 6.1 ) 。 两 个 粒子 之 间 的 碰撞 也 
是 类 似 的 ， 但 更 加 复杂 一 些 。 不 过 你 会 注意 到 这 种 计算 得 到 的 预测 结果 通常 是 不 会 碰撞 ( 比如 粒子 正 
在 向 墙 体 的 反方 向 移动 ， 或 者 两 个 粒子 的 运动 方向 相反 ) 一 一 这 种 情况 下 就 不 需要 向 优先 队列 中 插入 
任何 东西 。 为 了 处 理 另 一 种 典型 情况 ， 也 就 是 预测 到 的 碰撞 距 现在 的 时 间 太 远 时 ， 就 需要 一 个 Timit 
参数 来 指定 有 效 的 时 间 段 ， 这 样 就 可 以 忽略 时 间 晚 于 1imit 发 生 的 所 有 事件 了 。 

解 (时 间 t+dr) HF 


碰撞 之 后 的 速度 = (一 %,%) 
碰撞 之 后 的 位 置 =(1 一 sn+% 咖 








预测 (时 间 /) 
中 = 擅 墙 所 需 时 间 
= 距离 /速度 作风 hm 
=(1- sr )ve yy 
i 本 1-s—nm 1 
图 6.0.3 “预测 并 解决 粒子 和 墙 体 的 一 次 碰撞 
6.0.1.5 ”碰撞 计算 


当 发 生 碰撞 时 ， 我 们 需要 使 用 物理 公式 来 进行 计算 ， 以 描述 一 个 粒子 在 和 另 一 个 粒子 或 者 墙 体 
发 生 刚 性 碰撞 时 的 行为 。 在 示例 中 ， 墙 体 遇 到 了 一 面 竖 墙 。 如 果 发 生 碰撞 ， 粒 子 的 速度 将 会 从 (vv, ) 
变 为 (vv,) ， 请 见 图 6.0.4。 其 他 墙 体 的 碰撞 和 它 类 似 。 两 个 粒子 的 碰撞 也 是 类 似 的 ， 在 物理 上 
这 是 不 严密 的 ， 但 要 更 加 复杂 一 些 ( 请 见 练习 6.1 ) 。 


预测 (时间) En 
两 个 粒子 将 会 发 生 碰撞 ， 局 BN 3 
除非 某 一 个 提前 通过 了 交汇 点 a 2 
a ~ 
解 (时 间 t+di) 
碰撞 之 后 两 个 粒子 
的 速度 都 会 发 生 改变 


图 6.0.4 ”预测 并 计算 粒子 和 墙 体 的 一 次 碰撞 
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6.0.1.6 “排除 无 效 事 件 。 

预测 的 许多 碰撞 实际 上 都 不 会 发 生 ， 因 为 它们 被 其 他 的 碰撞 打 断 了 ， 信芳- 而 
请 见 图 6.0.5。 为 了 处 理 这 种 情况 ， 我 们 为 每 个 粒子 维护 一 个 实例 变量 bebe 
来 记录 和 它 有 关 的 碰撞 数量 。 当 从 优先 队列 中 取出 一 个 事件 来 处 理 时 ， 

我 们 会 检查 该 事件 所 涉及 粒子 的 础 撞 计 数 器 在 事件 被 创建 后 是 否 已 经 更 < 

新 。 这 是 排除 无 效 碰撞 的 延 时 方法 : 当 某 个 粒子 参与 了 一 次 碰撞 时 ， 我 \ i 

们 不 会 删除 优先 队列 中 和 该 粒子 有 关 的 其 他 碰撞 ( 尽管 这 些 碰撞 事件 现 硕 擅 的 粒子 
在 都 已 经 无 效 了 ) ， 而 是 会 在 之 后 遇 到 它们 时 直接 将 其 忽略 请 见 图 60.6。 。 图 60.5 ”可 据 独 的 事件 
另 一 种 即时 的 方式 是 立刻 从 优先 队列 中 删除 所 有 与 参与 当前 事件 的 粒子 

相关 的 其 他 事件 ， 然 后 再 计算 这 些 粒子 的 新 潜在 碰撞 事件 。 这 种 方式 需要 的 优先 队列 更 加 复杂 ( 需 
要 实现 删除 操作 ， 请 见 图 6.0.7 ) 。 

以 上 讨论 了 一 此 预备 知识 ， 这 些 都 是 对 按照 物理 定律 进行 弹性 碰撞 的 运动 粒子 执行 事件 驱动 
模拟 所 必 备 的 。 相 应 的 软件 架构 会 将 实现 封装 在 3 个 类 中 : 一 个 Particle 数据 类 型 ， 封 装 了 所 
有 和 粒子 有 关 的 计算 ; 一 个 Event 数据 类 型 来 预测 事件 ; 一 个 它们 的 用 例 Co11isionSystem 类 
用 来 完成 模拟 。 模 拟 的 核心 是 一 个 含有 所 有 事件 的 MinPQ 优先 队列 ， 按 照 时 间 排 序 。 下 面 看 一 下 
Particle、Event 和 CollisionSystem 的 实现 。 


4 粒子 背 向 一 


面 墙 体 运动 
\ 入 
_ Bm 
两 医 运 行 在 磁 挤 轨道 上 的 粒子 
~ 
一 
粒子 相互 离开 5 
ee “@ 
个 孝子 先王 易 一 第 三 颗粒 子 干 扰 碰撞 不 会 发 生 
个 柱子 到 达 碰 挤 点 
+ 一 
[ 碰撞 发 生 的 Es 
时 间 过 于 通 远 
图 6.0.6 ”可 预测 的 不 可 能 发 生 的 事件 图 6.0.7 一 次 失效 的 事件 


6.0.1.7 粒子 
练习 6.1 基于 牛顿 的 运动 学 定律 给 出 了 粒子 数据 类 型 的 实现 要 点 。 模 拟 用 例 应 该 能 够 移动 粒子 、 
画 出 粒子 并 进行 若干 和 碰撞 相关 的 计算 ， 如 表 6.0.1 中 的 API 所 示 。 


表 6.0.1 运动 的 粒子 对 象 的 API 





public class Particle 


ParticleO 在 单 








中 创造 一 个 新 的 随机 粒子 
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public class Particle 





Particle( 


用 给 定 的 位 置 、 速 度 、 半 径 和 质量 创建 一 个 粒子 


double rx, double ry, 
double vx, double vy, 


double s, 


double mass) 


void drawO 


void move(double dt) 


int countO 


double timeToHit(Particle b) 
double timeToHitHorizontalWwall() 
double timeToHitVerticalWall() 
double bounceOff(Particle b) 
double bounceOffHorizontalWwall() 
double bounceOffVerticalWall() 


画 出 粒子 

根据 时 间 的 流逝 dt 改变 粒子 的 位 置 

该 粒子 所 参与 的 碰撞 总 数 

距离 该 粒子 和 粒子 b 碰撞 所 需 的 时 间 
距离 该 粒子 和 水 平 的 墙 体 碰撞 所 需 的 时 间 
距离 该 粒子 和 垂直 的 墙 体 碰撞 所 需 的 时 间 
碰 掉 后 该 粒子 的 速度 

碰撞 水 平 墙 体 后 该 粒子 的 速度 

碰撞 垂直 墙 体 后 该 粒子 的 速度 


当 粒 子 不 在 碰撞 轨道 上 时 ( 这 是 很 常见 的 ) ，3 个 timeToHit*() 的 方法 都 会 返回 Double， 
POSITIVE_INFINITY。 这 些 方法 可 以 帮助 预测 给 定 粒子 在 未 来 的 所 有 碰撞 ， 将 在 1imit 时 间 内 发 


生 的 碰撞 事件 插 和 人 优先 队 
列 。 在 处 理 两 颗粒 子 相 撞 的 
事件 时 ,使 用 bounceOffO 
方法 计算 两 颗粒 子 在 碰撞 之 
后 的 速度 。bounceOff*() 
方法 用 于 处 理 粒子 和 墙 体 之 
间 的 碰撞 事件 。 
6.0.1.8 事件 

我 们 将 应 该 放 入 优先 
队列 中 的 所 有 对 象 信息 封装 
在 一 个 私有 类 之 中 ( 各 种 事 
件 ) 。 实 例 变量 time 记录 
的 是 事件 的 预计 发 生 时 间 ， 
实例 变量 a 和 b 保存 的 是 和 
该 事件 相关 的 粒子 。 这 里 有 
3 种 不 同类 型 的 事件 : 粒子 
和 垂直 墙 体 碰撞 、 粒 子 和 水 
平 墙 体 碰撞 、 粒 子 和 粒子 碰 
撞 。 为 了 平滑 动态 地 显示 运 
动 中 的 粒子 ， 我 们 添加 了 第 
4 种 类 型 的 事件 ， 即 重 绘 事 


private class Event implements Comparable<Event> 


} 


private final double time; 
private final Particle a, b; 
private final int countA, countB; 


public Event(double t, Particle a, Particle b) 
人 // 创造 一 个 发 生 在 时 间 t 且 与 a 和 b 相 关 的 新 事件 
this.time = t; 
this.a ; 
this.b =b; 
if (a != nu11) countA = a.count(); else countA = -1; 
if (b != nu11) countB = b.count(); else countB = -1; 
} 


public int compareTo(Event that) 

{ 
if (this.time < that.time) return -1; 
else if (this.time > that.time) return +1; 
else return 0; 





public boolean isvValid() 
{ 


if (a != null && a.count() != countA) return false; 
if (b != nul1 && b.count() != countB) return false; 
return true; 


» 


粒子 模拟 的 事件 类 


景 十 563 
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件 。 它 的 作用 是 将 所 有 粒子 在 它们 的 当前 位 置 画 出 。 为 了 使 Event 的 实现 能 够 表示 这 4 种 类 型 的 事 
件 ， 允 许 粒子 的 值 为 空 (nu11 ) : 

口 a 和 bb 均 不 为 空 : 粒子 与 粒子 碰撞 ; 

口 a 非 空 而 b 为 空 : 粒子 a 和 垂直 墙 体 的 碰撞 ; 

口 a 为 空 而 b 非 空 : 粒子 b 和 水 平 墙 体 的 碰撞 ; 

口 a 和 b 均 为 空 : 重 绘 事件 ( 画 出 所 有 粒子 ) 。 

尽管 没有 完全 遵循 面向 对 象 编程 的 原则 ， 但 这 些 约定 能 够 得 到 简洁 的 用 例 代 码 。 它 的 实现 如 后 
面 框 注 所 示 。 

Event 类 型 实现 中 的 第 二 个 技巧 是 ， 它 维护 了 两 个 实例 变量 countA 和 countB， 以 记录 事件 创建 
时 每 个 粒子 所 参与 的 碰撞 事件 数量 。 如 果 在 将 事件 从 优先 队列 中 取出 时 该 值 没有 发 生变 化 ， 那 么 就 可 
以 继续 模拟 这 个 事件 的 发 生 。 但 如 果 在 这 个 事件 进入 优先 队列 和 离开 优先 队列 的 这 段 时 间 内 任何 计数 
器 发 生 了 变化 ， 这 个 事件 就 失效 了 ， 那 就 可 以 忽略 它 。 方 法 isVa1idQ 支持 用 例 代码 检查 这 种 情况 。 
6.0.1.9 模拟 器 代码 


有 了 封装 在 Particle 类 
和 Event 类 中 的 运算 ,实际 
模拟 所 需 的 代码 非常 少 ， 如 
CollisionSystem 的 实现 所 
示 (请 见 框 注 “ 基 于 事件 模拟 
互相 碰撞 的 粒子 (框架) ”和 
框 注 “ 基 于 事件 模拟 互相 碰撞 
的 粒子 ( 主 循环 ) ”) 。 大 多 
数 运算 都 封装 在 右 侧 框 注 所 示 
的 predictCollision() 方法 
中 。 这 个 方法 会 计算 与 粒子 a 
有 关 的 所 有 潜在 碰撞 ( 可 能 是 


private void predictCollisions(Particle a, double 1imit) 
{ 
if (a == nul1) return; 
for (int i = 0; 1 < particles. length; i++) 
{ // 将 与 particles[j] 发 生 碰撞 的 事件 插入 pq 中 
double dt = a.timeToHit(particles[i]); 
if (t + dt <= Timit) 
pq.insert(new Event(t + dt, a, particles[1])); 
} 


double dtX = a.timeToHitVerticalWwallO; 
if (t+ dtX <= limit) 

pq.insert(new Event(t + dtX, a, nu11)); 
double dtY = a.timeToHitHorizontalWallO; 
if (t+ dty <= limit) 

pq.insert(new Event(t + dtY, null, a)); 


预测 其 他 粒子 的 碰撞 事件 


和 另 一 个 粒子 ， 也 可 能 是 和 一 
面 墙 ) 并 将 相应 的 事件 加 入 优先 队列 中 。 

模拟 的 核心 是 框 注 “ 基 于 事件 模拟 互相 碰撞 的 粒子 ( 主 循环 ) ”中 的 simulate() 方法 。 我 们 
会 调用 predictCo11ision() 方法 来 初始 化 每 个 粒子 ， 将 所 有 粒子 和 墙 体 以 及 粒子 和 粒子 之 间 的 潜 
在 碰撞 加 入 优先 队列 中 ， 然 后 进入 事件 驱动 模拟 的 主 循环 ， 它 的 任务 包括 : 

口 取出 即将 发 生 的 事件 ( 时间 为 + 的 优先 级 最 小 的 事件 ) ; 

口 如 果 事件 无 效 ， 将 它 忽略 ; 

口 按照 直线 运动 轨迹 使 所 有 粒子 运动 到 时 间 t; 

口 更 新 所 有 参与 碰撞 的 粒子 速度 ; 

口 使 用 predictCo11ision() 方法 来 预测 参与 碰撞 的 粒子 在 未 来 可 能 发 生 的 碰撞 ， 并 向 优先 

队列 中 插 人 相应 的 事件 。 

这 个 模拟 过 程 可 以 作为 计算 系统 中 的 各 种 有 趣 性 质 的 基础 ， 如 练习 所 示 。 例 如 ， 我 们 所 感 兴趣 
的 一 种 基本 性 质 是 所 有 粒子 向 墙 体 所 施加 的 压力 。 计 算 这 种 压力 的 一 种 方法 是 记录 墙 体 和 粒子 碰撞 
的 次 数 和 动量 ( 根据 粒子 的 质量 和 速度 计算 这 个 值 很 简单 ) ， 这 样 就 很 容易 得 到 它们 的 总 量 。 温 度 
性 质 的 计算 也 是 类 似 的 。 
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基于 事件 模拟 互相 碰撞 的 粒子 框架 ) 


public class CollisionSystem 








{ 
private class Event implements Comparable<Event> 
{ /* 请 见 正文 *// } 
private MinPQ<Event> pq; // 优先 队列 
private double t = 0.0; // 模拟 时 名 
private Particle[] particles;  // 粒子 数组 
public CollisionSystem(Particle[] particles) 
{ this.particles = particles; } 
private void predictCollisions(Particle a, double 1imit) 
世人 请 见 正文 */ 了 
public void redraw(double limit, double Hz) 
{ // 重 给 事件 : 重新 画 出 所 有 粒子 
StdDraw. clear(); 
for(int 1 = 0; i < particles. length; i++) particles[i].draw(O); 
StdDraw. show(20); 
if (t < Timit) 
pq.insert(new Event(t + 1.0 / Hz, null, nu11)); 
} 
public void simulate(double limit, double Hz) 
{ /* 请 见 后 面 的 主 循环 代码 */。 了 
public static void main(String[] args) 
{ 
StdDraw. show(0); 
int N = Integer.parseInt(args[0]); 
Particle[] particles = new Particle[N]; 
for (int i = 0; i < N; i++) 
particles[i] = new ParticleO; 
CollisionSystem system = new CollisionSystem(particles); 
System.simulate(10000, 0.5); 
} 
} 


该 类 使 用 了 优先 队列 来 模拟 粒子 系统 随 着 时 间 的 运动 。 测 试用 例 main() 接受 命令 行 参数 N， 创 造 
了 N 个 随机 粒子 并 创建 了 含有 所 有 粒子 的 Co11isionSystem， 然 后 调用 simulate() 方法 模拟 系统 的 演 
化 。 其 中 的 实例 变量 分 别 保存 了 模拟 所 需 的 优先 队列 、 当 前 时 间 和 所 有 粒子 。 863 

















基于 事件 模拟 互相 碰撞 的 粒子 〈 主 循环 ) 





public void simulate(double limit, double Hz) 

{ 
pq = new MinpQ<Event>(); 
for (int 1 = 0; i < particles.length; i++) 

predictCollisions(particles[i], Timit); 

pq.insert(new Event(0，nu11，nu11)); // 添加 重 绘 事件 
while (!pq.isEmpty()) 
人 { // 处 理 一 个 事件 
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Event event = pq.delMin(); 

if (levent.isValidO) continue; 

for (int i = 0; 1 < particles.length; i++) 
particles[i] .move(event.time - t); // 更 新 粒子 的 位 置 


t = event.time; /1 ”和 时 间 
Particle a = event.a, b = event.b; 
if (a != nul1 && b != null) a.bounceOff(b); 


else if (a != nul1 && b == nul1l) a.bounceOffHorizontalWall(O); 
else if (a == nul1 && b u11) b.bounceOffVerticalWallO); 
else if (a == null &b nu11) redraw(limit, Hz); 
predictCollisions(a, Timit); 
predictCollisions(b, limit); 









} 

} 

该 方法 是 事件 驱 % java CollisonSystem 5 -次 碰 樟 
动 模拟 的 主要 部 分 。 
首先 ， 我 们 用 所 有 粒 i WN (quesear ， 
子 预测 的 所 有 未 来 碰 
挤 初始 化 优先 队列 。 
然后 ， 主 循环 从 队列 
中 到 出 一 个 事件 ， 更 
新 时 间 和 粒子 的 位 
图， 并 在 处 理 碰 擅 后 
向 队列 中 加 入 由 此 产 
生 的 所 有 新 的 潜在 

864] “碰撞 。 

















6.0.1.10 性 能 
如 本 小 节 的 开头 所 述 ， 我 们 对 于 事件 驱动 模拟 的 主要 兴趣 在 于 避免 时 间 驱 动 模拟 的 内 循环 所 必 
须 的 大 量 计算 。 


命题 A。 对 N 个 能 够 相互 磁 撞 的 粒子 系统 ， 基 于 事件 的 模拟 在 初始 化 时 最 多 需要 N 次 优先 队 
列 操作 ， 在 碰撞 时 最 多 需要 入 次 优先 队列 操作 ( 且 对 于 每 个 无 效 的 事件 都 需要 一 次 额外 的 操 
作 ) 。 


证 明 。 请 见 代 码 。 


如 果 使 用 2.4 节 中 优先 队列 的 标准 实现 ,我们 能 够 保证 优先 队列 的 每 次 操作 都 是 对 数 级 别 的 ， 
因此 每 次 碰撞 所 需 的 时 间 是 线性 对 数 级 别 的 。 这 样 ， 才 有 可 能 模拟 大 量 的 粒子 。 

事件 驱动 模拟 已 经 被 应 用 于 无 数 需要 对 运动 中 的 物理 对 象 建 模 的 其 他 领域 ， 例 如 分 子 学 、 天 体 
物理 学 和 机 器 人 技术 。 这 些 应 用 可 能 会 用 其 他 实体 ， 或 是 三 维 空间 ， 或 是 其 他 作用 力 等 许多 种 方法 
扩展 这 个 模型 。 每 种 扩展 都 会 为 计算 带 来 新 的 挑战 。 这 种 事件 驱动 的 方式 得 到 的 模拟 比 其 他 方法 更 
加 健壮 、 准 确 和 高 效 ， 而 基于 堆 的 优先 队列 的 效率 使 不 可 能 完成 的 计算 成 为 了 可 能 。 

模拟 在 科学 和 工程 的 各 个 领域 都 是 帮助 研究 者 理解 自然 世界 中 各 种 性 质 的 重要 工具 。 它 的 应 用 
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从 制造 业 、 生 物 学 、 金 融 领域 到 复杂 的 工程 结构 ， 数 不 胜 数 。 对 于 它们 其 中 的 一 大 部 分 应 用 ， 基 于 
堆 的 优先 队列 数据 类 型 或 是 高 效 的 排序 算法 能 够 使 模拟 的 质量 和 范围 大 有 改观 。 


6.0.2 B- 树 

在 第 3 章 中 我 们 已 经 看 到 ， 能 够 快速 访问 大 量 数据 中 的 特定 元 素 的 算法 对 于 实际 应 用 有 着 重要 
意义 。 例 如 在 巨型 数据 集中 ， 查 找 是 一 项 非常 重要 的 操作 ， 该 操作 在 许多 计算 场景 中 会 消耗 掉 大 部 
分 资源 。 随 着 互联 网 的 进步 ， 某 项 任务 访问 到 的 信息 可 能 非常 庞大 一 一 我 们 的 挑战 在 于 在 其 中 进行 
有 效 地 查找 。 在 本 小 节 中 ， 我 们 将 介绍 一 种 3.3 节 的 平衡 树 算法 的 扩展 。 它 支持 对 保存 在 磁盘 或 者 
网 络 上 的 符号 表 进行 外 部 查找 ， 这 些 文件 可 能 比 我 们 以 前 考虑 的 输入 要 大 的 多 ( 以 前 的 输入 能 够 
保存 在 内 存 中 ) 。 现 代 软件 系统 正在 淡化 本 地 文件 和 网 页 之 间 的 区 别 ， 这 些 内 容 也 可 能 保存 在 一 
台 远程 计算 机 上 ， 因 此 我 们 可 以 找到 的 信息 实际 上 近似 于 无 限 。 令 人 惊讶 的 是 ， 我 们 将 要 学 习 的 
算法 只 需 使 用 4 ~ 5 个 指向 一 小 块 数据 的 引用 即 可 有 效 支 持 在 含有 数 百 亿 或 者 更 多 元 素 的 符号 表 
中 进行 查找 和 插 人 操作 
6.0.2.1 成 本 模型 

数据 存储 的 机 制 多 种 多 样 且 在 不 断 前 进 ， 因 此 我 们 将 使 用 一 个 能 够 抓 住 本 质 的 简单 模型 。 这 里 
用 页 表示 一 块 连续 的 数据 ， 用 探查 表示 访问 一 个 页 。 假 设 访问 一 页 需要 将 它 的 内 容 读 人 本 地 内 存 ， 
因此 之 后 的 访问 就 可 以 相对 高 效 。 一 个 页 可 能 是 本 地 计算 机 上 的 一 个 文件 ， 也 可 能 是 远程 计算 机 上 
的 一 张 网 页 ， 也 可 能 是 服务 器 上 的 某 个 文件 的 一 部 分 ， 等 等 。 我 们 的 目标 是 实现 能 够 仅 用 极 少 次 数 
的 探查 即 可 找到 任意 给 定 键 的 查找 算法 。 我 们 不 想 假设 页 的 具体 大 小 或 者 一 次 探查 〈 对 于 远程 设备 
显然 需要 通信 ) 所 需 时 间 与 随后 访问 块 中 内 容 ( 显然 这 发 生 在 本 地 处 理 器 上 ) 所 需 时 间 的 比例 。 在 
一 般 情 况 下 ， 这 些 值 的 数量 级 可 能 是 100、1000 或 者 10 000。 我 们 不 需要 更 精确 的 值 ， 因 为 在 我 们 
感 兴趣 的 范围 内 ， 算 法 对 这 些 值 的 不 同 并 不 非常 敏感 。 


B- 树 的 成 本 模型 。 我 们 使 用 页 的 访问 次 数 ( 无 论 读 写 ) 作为 外 部 查找 算法 的 成 本 模型 。 


6.0.2.2 B- 树 

它 是 对 3.3 节 所 述 的 2-3 树 数据 结构 的 扩展 。 关 键 的 不 同 在 于 ， 我 们 不 会 将 数据 保存 在 树 中 ， 
而 是 会 构造 一 棵 由 键 的 副本 组 成 的 树 ， 每 个 副本 都 关联 着 一 条 链接 。 这 种 方式 能 够 更 加 方便 地 将 
索引 和 符号 表 本 身分 开 ， 就 像 一 本 实体 书 中 的 索引 一 样 。 和 2-3 树 一 样 ， 我 们 限制 了 每 个 结 点 中 能 
够 含有 的 “ 键 -链接 ”对 的 上 下 数量 界限 : 选择 一 个 参数 M ( 一 般 都 是 一 个 偶数 ) 并 构造 一 棵 多 向 
树 ， 每 个 结 点 最 多 含有 M-1 对 键 和 链接 ( 假设 M 足够 小 ， 使 得 每 个 M 向 结 点 都 能 够 存放 在 一 个 页 
中 ) ， 最 少 含有 M/2 对 键 和 链接 ( 以 提供 足够 多 的 分 支 来 保证 查找 路 径 较 短 ) 。 根 结 点 是 个 例外 ， 
它 可 以 含有 少 于 M/2 对 键 和 链接 ， 但 也 不 能 少 于 2 对 。 这 种 树 被 Bayer 和 McCreight 在 1970 年 
命名 为 B- 树 。 他 们 是 最 早 使 用 多 向 平衡 树 进行 外 部 查找 的 研究 者 。 有 些 人 也 用 B- 树 这 个 术语 来 描 
述 Bayer 和 MeCreight 发 明 的 算法 所 构造 的 数据 结构 。 本 节 用 它 泛 指 所 有 基于 固定 页 大 小 的 多 向 平 
衡 查 找 树 的 数据 结构 。 我 们 用 M 阶 的 B- 树 来 指定 M 的 值 。 在 一 棵 4 阶 B- 树 中 ， 每 个 结 点 都 含有 
至 少 2 对 至 多 3 对 键 一 链接 ; 在 一 棵 6 阶 B- 树 中 请 见 图 6.0.8， 每 个 结 点 都 至 少 含有 3 对 至 多 5 对 
键 一 接 ( 根 结 点 除外 ， 它 可 以 只 含有 2 对 键 与 链接 ) ,等 等 。 对 于 较 大 的 M 根 结 点 是 个 例外 的 原因 ， 
在 学 习 构造 算法 的 细节 时 你 就 会 明白 了 。 


习 
Ei 
加 











866| 








568 本 第 6 章 背 景 








867 








2- 结 点 










外 部 的 3- 结 点 
每 个 红色 的 键 / 

都 是 子 树 中 的 一 | 

最 小 键 的 副本 
全 (饱和 ) 






除了 根 结 点 之 外 ， 所 有 结 点 均 为 3- 结 点 、4- 结 点 或 者 5- 结 点 


/ 
符号 表 的 键 (黑色 ) 
保存 在 外 部 结 点 中 


图 6.0.8 ”详解 用 一 棵 B- 树 表示 的 键 集 (M=6) 


6.0.2.3 约定 

为 了 说 明基 本 的 流程 ， 我 们 先 讨论 ( 有 序 ) (集合 ) SET 的 一 个 实现 ( 只 有 键 没有 值 ) 。 将 它 
扩展 得 到 一 个 能 够 将 键 和 值 相关 联 的 符号 表 实现 是 一 个 很 好 的 练习 ( 请 见 练习 6.16 ) 。 我 们 的 目标 
是 为 一 个 巨大 的 键 集 实现 add() 和 contains 0 方法 。 使 用 有 序 集 的 原因 是 我 们 希望 将 查找 树 推广 ， 
而 这 依赖 于 键 的 有 序 性 。 扩 展 实 现 来 支持 其 他 有 序 性 操作 也 是 十 分 有 益 的 练习 。 外 部 查找 的 应 用 常 
常会 将 索引 和 数据 隔离 。 对 于 B- 树 ， 我 们 通过 使 用 以 下 两 种 不 同类 型 的 结 点 做 到 这 一 点 。 
i: 含有 与 页 相关 联 的 键 的 副本 。 
含有 指向 实际 数据 的 引用 。 

内 部 结 点 中 的 每 个 键 都 与 一 个 结 点 相关 联 ， 以 此 结 点 为 根 的 子 树 中 ， 所 有 的 键 都 大 于 等 于 与 此 
结 点 关联 的 键 ， 但 小 于 原 内 部 结 点 中 更 大 的 键 ( 如 果 存 在 的 话 ) 。 为 了 方便 这 里 使 用 了 一 个 特殊 的 
哨兵 键 , 它 小 于 其 他 所 有 键 。 一 开始 B- 树 只 含有 一 个 根 节点 ,而 根 结 点 在 初始 化 时 仅 含有 该 哨兵 键 。 
符号 表 不 含有 重复 键 ， 但 我 们 会 ( 在 内 部 结 点 中 ) 使 用 键 的 多 个 副本 来 引导 查找 。 ( 在 示例 中 ， 所 
有 键 都 是 单个 字母 并 使 用 小 于 所 有 字母 的 “*” 作 为 哨兵 键 。 ) 这 些 约定 能 够 一 定 程度 上 简化 代码 ， 
并 且说 明了 另 一 种 在 内 部 结 点 中 将 所 有 数据 和 链接 混合 的 便利 ( 而 且 是 广泛 使 用 的 ) 方式 ， 就 像 其 
他 查找 树 一 样 。 
6.0.2.4 查找 和 插入 

B- 树 中 查找 的 基础 是 在 可 能 含有 被 查找 键 的 唯一 子 树 中 进行 递归 搜索 。 当 且 仅 当 被 查找 的 键 
包含 在 集合 中 时 ， 每 次 查找 便 会 结束 于 一 个 外 部 结 点 。 在 内 部 结 点 中 过 到 被 查找 的 键 的 副本 时 就 判 
断 查找 命中 并 结束 ， 但 总 会 找到 相应 的 外 部 结 点 ， 因 为 这 么 做 可 以 简化 将 B- 树 扩展 为 有 序 符号 表 
的 实现 ( 当 M 很 大 时 这 种 情况 很 少 出 现 ) 。 举 一 个 具体 的 例子 : 假设 有 一 棵 6 阶 B- 树 ， 该 树 由 多 
个 含有 3 对 键 -链接 的 3- 结 点 、 含 有 4 对 键 - 链接 的 4- 结 点 和 含有 5 对 键 - 链接 的 5 结 点 以 及 
一 个 2- 根 结 点 组 成 ， 请 见 图 6.0.9。 在 查找 时 ， 从 根 结 点 开始 ， 根 据 被 查找 的 键 选择 当前 结 点 中 的 
适当 区 间 并 根据 适当 的 链接 从 一 个 结 点 移动 到 下 一 个 结 点 。 最 终 ， 查 找 过 程 会 到 达 树 底 的 一 个 含有 
键 的 页 。 如 果 被 查找 的 键 在 该 页 中 ， 查 找 命中 并 结束 ; 如 果 不 在 ， 则 查找 未 命中 。 和 2-3 树 一 样 ， 
要 在 树 的 底部 插入 一 个 新 键 ， 可 以 使 用 递归 代码 。 如 果 空 间 不 足 ， 那 么 可 以 允许 被 插入 的 结 点 暂 
时 “溢出 ”( 变 成 一 个 6- 结 点 ) ， 并 在 递归 调用 后 向 上 不 断 分 裂 6- 结 点 。 如 果 根 结 点 也 变 成 了 6- 
结 点 ， 则 可 以 将 它 分 裂 成 连接 了 两 个 3- 结 点 的 2- 结 点 ; 对 于 树 的 其 他 位 置 ， 我 们 将 6- 结 点 结 点 
的 父 扩 结 点 变 为 连接 着 两 个 3- 结 点 的 (kt1)- 结 点 。 将 上 文中 的 3 替换 成 M2，6 替换 成 M， 即 可 
得 到 M 阶 B- 树 中 的 查找 和 插入 操作 的 方法 ， 请 见 图 6.0.10。 定 义 如 下 所 示 。 
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定义 。 一 棵 M 阶 B- 树 ( M 为 正 偶数 ) 或 者 仅 是 一 个 外 部 大 结 点 【含有 大 个 键 和 相关 信息 的 树 ) ， 
或 者 由 若干 内 部 全 结 点 (每 个 结 点 都 含有 上 个 键 和 上 条 链接 ， 链 接 指向 的 子 树 表示 了 键 之 问 的 间 
隅 区 域 ) 组 成 。 它 的 结构 性 质 如 下 : 从 根 结 点 到 每 个 外 部 结 点 的 路 径 长 度 均 相同 ( 完美 平衡 ) ; 对 
于 根 结 点 , 在 2 到 M-1 之 间 ， 对 于 其 他 结 点 上 在 MI2 到 M-1 之 间 。 

查找 E sk 


跟随 这 条 链接 ， 因 
为 E 在 * 和 kK 之 间 一、 











跟随 这 条 链接 ， 因 
-一 为 E 在 D 和 H 之 间 


在 该 外 部 结 -一 
点 中 查找 E 


图 6.0.9 在 由 B- 树 表示 的 键 集 中 进行 查找 (M=6) 


BE 
[BCEF IHI KMNoOP [CRT UwWX 


~ 一 一 新 插入 的 键 C 造 成 了 溢出 和 分 型 













根 结 点 的 分 裂 产生 一 ~ 
了 一 个 新 的 根 结 点 






图 6.0.10 向 由 B- 树 表 示 的 键 集中 插入 一 个 新 键 


6.0.2.5 ”数据 表示 

按照 刚才 的 讨论 ， 我 们 在 选择 B- 树 结 点 的 表示 方法 上 有 很 大 的 自由 度 。 我 们 将 这 些 选 择 封装 
在 一 个 Page API 中 (请 见 表 6.0.2 ) 。 它 可 以 关联 键 与 指向 Page 对 象 的 链接 ， 支 持 检测 页 是 否 溢 
出 分裂 页 并 区 分 内 部 页 和 外 部 页 的 操作 。 你 可 以 将 Page 看 作 一 张 符号 表 ， 但 是 是 保存 在 外 部 介 
质 上 的 (本 地 或 是 网 络 上 的 文件 ) 。API 中 的 “打开 ” (open ) 和 “关闭 ”( close ) 方法 指 的 是 将 
外 部 页 读 入 内 存 和 将 内 存 内 容 写 回 外 部 页 ( 如 果 需 要 的 话 ) 的 过 程 。addO 方法 是 为 内 部 页 准备 
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的 ， 它 是 一 个 符号 表 操作 ， 会 将 给 定 页 和 以 该 页 为 根 结 点 的 子 树 中 的 最 小 键 关联 起 来 。add() 和 
contains() 方法 是 为 外 部 页 准备 的 ， 和 SET 中 相应 的 方法 类 似 。 在 所 有 实现 中 ， 最 重要 的 方法 都 
是 split()。 在 分 裂 一 张 饱 和 页 时 ，sp1it0 方法 会 将 排序 后 位 置 正好 大 于 M/2 的 键 移动 到 一 个 新 
的 Page 对 象 中 , 并 返回 该 对 象 的 引用 。 练习 6.15 讨论 了 使 用 BinarySearchST 对 Page 的 一 种 实现 。 
这 种 方法 将 B- 树 实现 在 了 内 存 中 ， 和 其 他 查找 树 的 实现 一 样 。 在 某 些 系统 中 ， 这 种 外 部 查找 的 实 
现 可 能 已 经 足够 了 ， 因 为 虚拟 内 存 系统 会 处 理 磁盘 访问 。 更 加 贴近 实际 的 实现 可 能 包含 与 硬件 相关 
的 代码 来 读 取 和 写 人 页 的 内 容 。 练 习 6.19 会 鼓励 你 用 网 页 实现 Page。 这 里 不 会 讨论 这 些 细 节 ， 而 
强调 的 重点 是 B- 树 的 概念 能 够 广泛 用 于 各 种 场景 之 中 。 


6.0.2 ”B- 树 的 页 的 API 
public class Page<Key> 








Page(boolean bottom) 创建 并 打开 一 个 页 

void closeO 关闭 页 

void add(Key key) 将 键 插入 外 部 的 ) 页 中 

void add(Page p) 打开 p， 向 这 个 ( 内 部 ) 页 中 插入 一 个 条 目 

并 将 p 和 p 中 的 最 小 键 相 关联 

boolean isExternal(O) 这 是 一 个 外 部 页 吗 
boolean contains(Key key) 键 key 在 页 中 吗 

Page next(Key key) 可 能 含有 键 key 的 子 树 
boolean isFul1O 页 是 否 已 经 溢出 

Page split() 将 较 大 的 中 间 键 移动 到 一 个 新 页 中 

Iterable<Key> keys() 页 中 所 有 键 的 迭代 器 


在 这 些 准备 之 后 ， 后 面 框 注 “B- 树 集合 的 实现 ”的 BTreeSET 就 很 简单 了 。 它 用 递归 实现 了 
contains() 方法 ， 接 受 一 个 Page 对 象 作为 参数 并 处 理 了 以 下 3 种 情况 。 

口 如 果 当 前 页 是 外 部 页 且 键 在 该 真 中 ,返回 true。 

口 如 果 当 前 页 是 外 部 页 且 键 不 在 该 页 中 ,返回 false。 

口 否则 ， 递 归 地 在 可 能 含有 该 键 的 子 树 中 查找 。 

我 们 用 相同 的 递归 结构 实现 了 add0 方法 ， 只 是 在 没有 找到 该 键 的 时 候 将 它 插入 到 了 树 底部 的 
页 中 ， 然 后 分 裂 回 湖 过 程 中 所 遇 到 的 所 有 饱和 结 点 ， 请 见 图 6.0.11。 
6.0.2.6 性 能 

B- 树 最 重要 的 性 质 就 是 ， 在 实际 应 用 中 对 于 适当 的 参数 M， 查 找 的 成 本 是 常数 级 别 的 。 





命题 B。 含 有 N 个 元 素 的 M 阶 B- 树 中 的 一 次 查找 或 插入 操作 需要 logwN ~ loguoN 次 探查 一 一 
在 实际 情况 下 这 基本 是 一 个 常数 。 


证 明 。 因 为 树 中 的 所 有 内 部 结 点 ( 非 根 结 点 也 非 外 部 结 点 的 所 有 结 点 ) 的 形成 都 是 由 含有 M 个 
键 的 他 和 结 点 分 裂 得 到 的 上 且 大 小 只 可 能 增长 当 它 的 子 结 点 分 裂 时 ) ， 所 以 其 中 的 链接 数 总 是 
在 M2 到 M-1 之 间 。 在 最 好 的 情况 下 ， 这 些 结 点 能 够 形成 一 棵 M-1 向 的 完全 树 ， 由 此 马上 就 
可 以 得 到 命题 中 所 述 的 上 下 界 。 在 最 坏 情况 下 ， 根 结 点 只 含有 两 个 链接 并 分 别 指向 两 棵 M12 向 
的 完全 树 。 将 对 数 的 底 设 为 M 可 以 得 到 一 个 非常 小 的 数 一 一 例如 ， 当 M 为 1000 且 入 小 于 625 
亿 时 ， 树 的 高 度 小 于 4。 
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在 一 般 情况 下 ， 我 们 可 以 将 根 结 点 保存 在 内 存 中 ,这样 可 以 将 探查 次 数 减 1。 在 磁盘 和 网 络 中 
进行 查找 时 ， 应 该 在 开始 大 量 查找 前 显示 地 完成 这 一 步 。 在 带 有 缓存 的 虚拟 内 存 中 ， 应 该 将 根 结 点 
放 在 最 快 的 缓存 中 ， 因 为 它 是 访问 最 频繁 的 结 点 。 
6.0.2.7 ”空间 需求 
在 实际 应 用 中 , 我 们 对 B- 树 使 用 的 空间 也 很 感 兴趣 。 由 页 的 构造 可 知 , 它们 至 少 都 是 半 满 的 。 
在 最 坏 的 情况 下 ，B- 树 所 需 的 空间 是 所 有 键 占 用 的 实际 空间 的 一 倍 再 加 上 链接 所 需 的 空间 。 对 于 随 [1 
机 键 ，A.Yao 在 1979 年 ( 使 用 超出 了 本 书 范围 的 数学 方法 ) 证 明了 结 点 中 平均 含有 Min2 个 键 ， 因 
此 浪费 的 空间 约 占 44%。 和 其 他 查找 算法 一 样 ， 这 个 随机 模型 也 很 好 地 预测 了 在 实际 应 用 中 所 观察 
到 的 键 的 分 布 。 














算法 6.12_B- 树 集合 的 实现 





public class BTreeSET<Key extends Comparable<Key>> 
{ 
private Page root = new Page(true); 


public BTreeSET(Key sentine1) 
{ put(sentinel); } 


public boolean contains(Key key) 
{ return contains(root, key); } 


private boolean contains(Page h, Key key) 


if (h.isExternal()) return h.contains(key); 
return contains(h.next(key), key); 


} 


public void add(Key key) 
{ 
put (root, key); 
if (root.isFul10) 
{ 
Page lefthalf = root; 
Page righthalf = root.splitO); 
root = new Page(false); 
root.put(lefthalf); 
root.put(righthalf); 
} 
# 


public void add(Page h, Key key) 
{ 
if (h.isExternalO)) { h.put(key); return; } 


Page next = h.next(key); 
put(next, key); 
if (next.isFul10O) 
h.put(next. splitO); 
next.closeO; 
} 
了 


如 正文 所 述 ， 这 段 代码 实现 了 多 向 平衡 查找 树 ( B- 树 ) 。 它 在 查找 时 使 用 了 Page 数据 类 型 来 将 键 
和 可 能 含有 该 键 的 子 树 相关 联 ， 并 通过 检测 键 的 溢出 和 分 裂 结 点 的 方法 完成 了 插入 操作 ， 请 见 图 6.0.11。 872 
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需 4 ~- 5 次 访问 即 可 搜索 你 能 
在 实践 中 ， 主 要 的 挑 
间 , 但 随 着 大 部 分 设备 上 的 存 空间 的 增长 ， 这 已 经 


命题 B 的 影响 之 巨大 ， 值 得 我 们 思考 。 你 会 猜 到 某 种 查找 算法 只 
够 想象 的 最 大 文件 吗 ? B- 树 的 应 用 十 分 广 
战 是 在 实现 时 尽量 保证 B- 树 中 结 点 所 需 的 
不 算 什么 问题 了 

基本 B- 树 抽象 的 许多 变种 都 很 容易 理解 。 一 类 变化 是 尽 可 能 在 内 让 中 从 
以 节省 时 间 ， 这 样 可 以 使 分 支 增多 并 将 树 更 加 扁平 化 。 另 一 类 变化 是 在 分 烈 译 和 和 
提高 存储 的 使 用 效率 。 对 - 变种 以 及 参数 的 选择 应 该 适应 于 具体 的 设备 和 应 用 
效率 也 仅 限于 常数 因子 围 之 内 ， 但 对 于 巨型 符号 表 或 是 大 量 事物 处 理 需求 来 说 ， 这 样 的 改进 
也 有 着 重要 的 意 也 是 为 什么 B- 树 如 此 高 效 的 原因 




























pe 饱和 页 ， 即 将 被 分 裂 
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6.0.3 后缀 数组 

字符 串 处 理 的 高 效 算法 在 科学 计算 和 商业 应 用 中 都 有 着 重要 的 地 位 。 从 搜索 互联 网 文本 信息 到 
科学 家 为 了 揭 开 生命 的 秘密 而 努力 研究 的 庞大 基因 数据 库 ，21 世纪 中 基于 字符 串 的 计算 机 应 用 在 大 
规模 增长 。 和 以 前 一 样 ， 许 多 经 典 的 算法 都 十 分 有 效 ， 但 人 们 也 发 明了 一 些 很 好 的 新 算法 。 下 面 ， 
我 们 将 介绍 能 够 支持 这 些 算法 的 一 种 数据 结构 和 一 份 API。 首 先 ， 我 们 来 看 一 个 典型 的 ( 而 且 是 经 
典 的 ) 字符 串 处 理 问题 。 
6.0.3.1 最 长 重复 子 字符 串 

在 给 定 的 字符 串 中 ， 至 少 出 现 了 两 次 的 最 长 子 字符 串 是 什么 ?例如 ， 在 字符 串 "to be or 
not to be" 中 ,最 长 重复 子 字符 串 就 是 "to be"。 你 觉得 应 该 怎样 解决 这 个 问题 呢 ? 你 能 在 长 度 
为 数 百 万 个 字符 的 字符 串 中 找 出 它 的 最 长 重复 子 字符 串 吗 ? 这 个 问题 的 说 明 很 简单 ， 应 用 也 很 多 ， 
包括 数据 压缩 、 密 码 学 和 计算 机 辅助 音乐 分 析 等 。 例 如 ， 开 发 大 型 软件 系统 中 的 一 种 常见 技术 叫做 
代码 重 构 。 程 序 员 经 常会 通过 复制 粘贴 代码 从 原 有 的 程序 生成 新 的 程序 。 对 于 开发 了 很 长 时 间 的 一 
大 段 程序 ， 将 不 断 重复 出 现 的 代码 转化 为 函数 调用 能 够 使 程序 更 加 容易 理解 和 维护 。 我 们 可 以 通过 
在 程序 中 寻找 最 长 重复 子 字符 串 做 到 这 一 点 。 这 个 问题 的 另 一 个 应 用 是 计算 生物 学 。 在 给 定 的 基因 
中 存在 大 量 相同 的 片段 吗 ” 同 样 ， 这 个 问题 背后 的 本 质 也 是 找 出 字符 串 中 的 最 长 重复 子 字符 串 。 科 
学 家 一 般 更 关心 细节 ( 事实 上 ， 重 复 子 字符 串 的 意义 正 是 科学 家 所 希望 理解 的 ) ， 但 这 个 问题 显然 
比 寻 找 简单 的 最 长 重复 子 字符 串 更 难以 回答 。 
6.0.3.2 ”暴力 解法 

作为 热身 ， 考 虑 以 下 这 个 简单 


private static int lcp(String s, String t) 





的 任务 : 给 定 两 个 字符 串 ， 找 到 它 
们 的 最 长 公共 前 组 ( 两 者 的 前 级 字 ze 9 i te ri t. lengthO); 
本 r (int i = 0 
符 串 中 的 相同 且 最 长 者 ) 。 例 如 ， 全 
acctgttaac 和 accgttaa 的 最 长 公 return Ni 
共 前 线 是 acc。 右 边框 注 中 的 代码 是 。 
我 们 解决 更 加 复杂 问题 的 起 点 ， 它 两 个 字符 让 的 最 长 公共 前 朋 


所 需 的 时 间 和 相 匹配 的 子 字符 串 长 
度 成 正比 。 现 在 ， 我 们 应 该 如 何在 给 定 的 字符 串 中 找到 最 长 重复 子 字符 串 呢 ? 根据 1cp(C) ， 马 上 可 
以 得 到 下 面 这 种 暴力 解法 : 将 一 个 字符 串 中 起 始 位 置 为 i 的 子 字符 串 与 男 一 个 字符 串 中 起 始 位 置 为 
j 的 子 字符 串 相 比较 ， 记 录 匹 配 的 最 长 子 字符 串 。 这 段 代码 不 适合 处 理 长 字符 串 ， 因 为 它 的 运行 时 
间 至 少 是 字符 串 长 度 的 平方 级 别 : 不 同 的 子 字符 串 对 1 和 j 的 数量 为 MN-1)2， 因 此 这 种 方式 调 
用 1cpO 的 次 数 将 会 是 - /2。 用 这 种 方法 处 理 含有 上 百 万 个 字符 的 碱 基 对 序列 将 会 调用 几 百 亿 次 
1cp() ， 显 然 这 是 不 可 行 的 。 
6.0.3.3 ”后 缀 排序 

下 面 这 种 巧妙 的 方法 用 一 种 出 人 意料 的 方式 利用 排序 算法 高 效 地 找 出 了 字符 串 中 的 最 长 重 
复 子 字符 串 : 用 Java 的 substring() 方法 创建 一 个 由 字符 串 s 的 所 有 后 组 字符 串 ( 由 字符 串 
的 所 有 位 置 开 始 得 到 的 后 缀 字符 串 ) 组 成 的 数组 ， 然 后 将 该 数组 排序 ， 请 见 图 6.0.12。 算 法 的 
关键 在 于 原 字符 串 的 每 个 子 字符 串 都 是 数组 中 的 某 个 后 级 字符 串 的 前 组 。 在 排序 之 后 ， 最 长 重 
复 子 字符 串 会 出 现在 数组 中 的 相 邻 位 置 。 因 此 ， 只 需要 遍历 排序 后 的 数组 一 遍 即 可 在 相 邻 元 素 
中 找到 最 长 的 公共 前 级 。 这 种 方法 比 暴力 方法 有 效 得 多 。 但 在 实现 和 分 析 它 之 前 ， 我 们 先 介绍 
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后 级 排序 的 另 一 种 应 用 。 
6.0.3.4 ”定位 字符 串 

当 需 要 在 大 量 文本 中 寻找 某 个 特定 的 子 字符 串 时 ( 例如 ， 
当 你 在 使 用 文本 编辑 器 或 是 在 浏览 网 页 时 ) ， 你 就 是 在 进行 一 
次 子 字符 串 查找 ， 即 5.3 节 中 讨论 过 的 问题 。 对 于 这 个 问题 ， 我 
们 假设 文本 比 要 查找 的 字符 串 庞大 得 多 ， 并 将 注意 力 集中 在 查 
找 字符 串 的 预 处 理 上 ， 以 保证 能 够 在 任意 给 定 的 文本 中 高 效 的 
找到 该 子 字符 串 。 当 在 浏览 器 中 输入 要 查找 的 关键 字 时 ， 就 是 
在 进行 一 次 字符 囊 键 查找 ， 即 5.2 节 的 主题 。 搜 索引 擎 必然 已 经 
预先 计算 得 到 了 一 张 索 引 表 ， 因 为 它 不 可 能 即时 地 根据 输入 的 
关键 字 扫描 互联 网 中 的 所 有 页 面 。 根 据 3.5 节 的 讨论 ( 请 见 3.5.4 
节 框 注 “ 文 件 索引 ”的 FileIndex ) ， 理 想 情况 下 最 好 有 一 张 
反 向 索引 符号 表 将 每 个 被 查找 的 字符 串 和 所 有 含有 它 的 网 页 关 
联 起 来 一 一 在 符号 表 的 每 个 条 目 中 ， 键 即 为 被 查找 的 字符 串 ， 
而 值 则 为 一 组 指针 ， 请 见 图 6.0.13 ( 每 个 指针 都 含有 能 够 定位 
该 键 在 互联 网 上 具体 位 置 所 需 的 信息 一 一 这 可 以 是 一 个 网 页 的 
URL 加 上 键 的 出 现 位 置 的 偏 移 量 。 ) 在 实际 应 用 中 ,这 样 的 符 
号 表 会 非常 非常 大 ， 因 此 搜索 引擎 会 使 用 各 种 复杂 的 算法 来 缩 
小 它 的 体积 。 一 种 方法 是 将 网 页 按照 重要 程度 排序 ( 可 以 使 用 
3.5.5 节 讨 论 的 PageRank 算法 ) 并 只 选择 排序 等 级 较 高 的 网 页 
而 非 全 部 网 页 。 另 一 种 减 小 符号 表 大 小 的 方法 是 将 多 个 关键 词 
(以 空格 分 隔 ) 作为 预 处 理 得 到 的 索引 表 的 键 并 和 URL 关联 。 
那么 ， 当 你 查找 一 个 关键 词 时 ， 搜 索引 擎 可 以 通过 索引 找到 含 
有 被 查找 的 键 ( 即 关 键 词 ) 的 ( 相对 重要 的 ) 网 页 ， 并 在 该 页 
面 中 使 用 字符 串 查找 来 定位 关键 词 。 使 用 这 种 方法 时 ， 如 果 文 
本 含有 的 是 “everything” 而 你 要 找 的 是 “thing”， 那 可 能 会 
找 不 到 。 对 于 某 些 应 用 ， 构 造 一 个 能 够 帮助 我 们 找 出 文本 中 的 
任意 子 字符 串 的 索引 是 值得 的 。 这 么 做 可 能 是 为 了 对 一 本 非常 


输入 字符 串 
01234567891011121334 
aacaagtttacaagc 


所 有 后 组 字符 串 
0 aacaagtttacaagc 
1 acaagtttacaagc 
2 caagtttacaagc 
3 aagtttacaagC 

4 agtttacaagc 

5 gtttacaagc 

6 tttacaagc 

7 ttacaagc 

3 tacaagc 


排序 后 的 后 级 字符 串 

0 aacaagtttacaagc 
11 aagc 
aagtttacaagc 
acaagc 
acaagtttacaagc 
12 agc 
4 agtttacaagc 

< 


10 caagc 
2 caagtttacaagc 


gc 
5 gtttacaagc 
8 tacaagc 
7 ttacaagc 
6 tttacaagc 


二 的 放生 子 字符 串 
aacaag ttt acaag Cc 


图 6.0.12 ”使 用 后 绷 排 序 计算 最 
长 重复 子 字符 串 


重要 的 文学 作品 进行 语言 学 研究 ， 或 是 为 了 找 出 可 能 成 为 许多 科学 家 研究 对 象 的 某 段 碱 基 对 序列 ， 
或 者 找 出 访问 量 很 大 的 网 页 。 同 样 ， 在 理想 情况 下 ， 索 引 表 应 该 将 文本 字符 串 的 所 有 子 字符 串 分 别 
和 它们 的 出 现 位 置 关 联 起 来 ， 如 图 6.0.14 所 示 。 这 种 方法 的 问题 显然 是 子 字符 串 的 总 数 太 大 ， 在 符 
号 表 中 为 每 个 子 字 符 串 创建 一 个 条 目 不 现实 。( 一 段 含 有 NN 个 字符 的 文本 含有 NN+1)/2 个 子 字符 串 。) 
图 6.0.14 中 的 符号 表 需 要 含有 b、be、bes、best、besto、bestof、e、es、est、esto、estof、s、 
st、sto、st of、t、to、tof、o、of 和 许 许多 多 其 他 子 字符 串 的 条 目 。 这 次 我 们 也 可 以 用 后 缀 排 
序 的 方法 解决 这 个 问题 ， 就 像 3.1 节 中 用 二 分 查找 对 符号 表 的 第 一 次 实现 一 样 。 我 们 可 以 将 N 个 后 
缀 作为 键 ， 以 这 些 键 (后 缀 ) 创建 一 个 有 序 的 数组 并 使 用 二 分 查找 法 搜索 数组 ， 比 较 被 查找 的 键 和 


所 有 后 级 ， 请 见 图 6.0.15。 
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在 以 字符 串 为 键 的 符号 表 中 进行 
查找 : 找 出 含有 该 键 的 网 页 








子 字 符 串 查找 : 在 
网 页 中 找到 该 键 








图 6.0.13 理想 化 的 一 次 典型 的 网 络 搜索 图 6.0.14 理想 化 的 一 张 文 本 字符 串 索 引 表 





后 组 有 序 后 级 数 组 
it was the best of times it was the best of tines it was the 
was the best of times it was the i was the 
was the best of rimes it was the of tines it was the 
was the best of times it was the 
4 best of tines it was ti ef of rimes it was the 
5, the best of times it was he Tnes it 
the best of times it was the 
oe hest gf Fines it, was the Ds the best of times it was the ect 
Ne best of times it was the selec 
全 best of times it was the 9 4 5 the best of tines it was the 
tg Fines 1t, was Khe Bs4 best eres Ess te 
Of times it was th 站 
est of times 1t was the ‘indexC9) best of times it was the 
St of tines it was the es it 
t of times it was the Sst of times it was the 
of times it was the f times i 
of times it was the he 
f times 1t was tt he best of times it was the 
times it was the imes 1t was 
times it was the it was the 
ines it was the 20 10 Ht was the best of tines it was the 
mes Tt was the ‘mes it was the 
tas phe fines HE the 
sit was the Sit was 
it was the 1cpGo) 3 the 
1t was the She gst, of times Ht was the 
‘twas the St of times it was the 
was the FoF rimes it was the 
was the twas tt} 
as Khe i Ss the best of times it was the 
5 the rankC"th") —> e 过 
the he bes of tipes it was the 
he times i 
he he 
9 was the best of tines it was the 人 


在 二 分 查找 中 通过 rank() 
方法 找到 的 含有 “th” 的 区 间 
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图 6.0.15 后 丝 数 组 中 的 二 分 查找 1 
878) 











6.0.3.5 API 及 其 用 例 

为 了 解决 这 两 个 问题 ， 我 们 给 出 了 以 下 API。 它 含有 构造 函数 、1ength() 方法 、select() 和 
index 0 方法 分 别 给 出 了 有 序 后 缀 数组 中 给 定位 置 的 后 级 和 它 的 索引 值 、1cp() 方法 会 返回 每 个 后 
级 和 它 在 数组 中 的 前 一 个 后 缀 的 最 长 公共 前 绥 、rank() 方法 能 够 给 出 小 于 给 定 键 的 后 级 数量 。 ( 自 
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从 第 1 章 中 第 一 次 学 习 二 分 查找 后 就 一 直 在 使 用 它 。 ) 我 们 用 后 组 数组 表示 有 序 后 缀 字符 串 列表 的 
这 种 抽象 数据 结构 ， 但 实际 使 用 的 并 不 一 定 是 字符 串 数组 ， 如 表 6.0.3 所 示 。 


public class SuffixArray 


表 6.0.3 后缀 数组 的 API 





SuffixArray(String text) 为 文本 text 构造 后 缀 数组 


int lengthO 
String select(int i) 
int indexCint i) 


int lcpCint i) 


int rank(String key) 


在 右边 框 注 所 示 的 例子 中 ， 
select(9) 的 结果 是 “as the 
best of times...”、index(9) 
的 值 是 4、lcp(20) 的 值 是 10 
(因为 “it was the best of 
times...” 和 “it was the” 
的 公共 前 缀 “it was the” 的 长 
度 为 10) 、rank(C“th") 的 值 是 
30。 注 意 ，select(rank(key)) 
是 有 序 后 织 数 组 中 第 一 个 以 key 
为 前 缀 的 后 级 字符 串 ， 键 key 
在 正文 中 出 现 的 其 他 位 置 都 在 
后 级 数组 中 紧 跟着 该 条 目 (请 
见 图 6.0.15) 。 使 用 这 份 API 
可 以 立即 写 出 框 注 中 的 代码 。 
LRS 类 ( 见 本 页 框 注 ) 会 为 标 
准 输 入 得 到 的 文本 构造 后 级 数 
组 ， 并 根据 扫描 数组 所 得 的 最 
大 1cpO) 值 找 出 文本 中 的 最 长 
重复 子 字符 串 。KWIC 类 ( 见 下 
页 框 注 ) 会 为 命令 行 参 数 指定 
的 文本 构造 后 级 数组 ， 从 标准 
输入 接受 查询 并 打印 出 被 查询 


文本 text 的 长 度 
后 组 数组 中 的 第 1 个 元 素 (1 在 0 到 N-1 之 间 ) 
select(i) 的 索引 (i 在 0 到 N-1 之 间 ) 


select(i) 和 select(i-1) 的 最 长 公共 前 级 的 长 度 (1 在 1 
到 N-1 之 间 ) 


小 于 键 key 的 后 妆 数量 


public class LRS 

{ 
public static void main(String[] args) 
{ 


String text - StdIn.readA110); 

int N = text.lengthO; 

SuffixArray sa = new SuffixArray(text); 
String 1rs = ""; 

for (Cint 1 = 1; i < N; i++) 

{ 


int length = sa.1lcp(i); 
if (length > lrs.length()) 
1rs = sa.seiect(i).substring(0, length); 


StdOut .printin(1rs); 


最 长 重复 子 字符 串 算法 的 用 例 


% more tinyTale. txt 

it was the best of times it was the worst of times 

it was the age of wisdom it was the age of foolishness 
it was the epoch of belief it was the epoch of incredulity 
it was the season of light it was the season of darkness 
it was the spring of hope it was the winter of despair 


% java LRS < tinyTale.txt 
St of times it was the 


的 子 字符 串 在 文本 中 的 上 下 文 ( 该 字符 串 的 前 后 若干 个 字符 ) 。KWIC 这 个 名 字 表 示 的 是 上 下 文中 
的 关键 词 (keyword-in-context ) 查找 ， 最 早出 现在 20 世纪 60 年 代 。 这 些 典 型 的 字符 串 处 理应 用 
代码 的 简洁 和 高 效 令 人 赞叹 。 这 也 说 明了 精心 设计 API 的 重要 性 ( 以 及 简单 而 巧妙 的 思想 的 影响 


力 ) 。 
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public class KWIC 














{ 
public static void main(String[] args) 
In in = new In(args[0]); 
int context = Integer.parseInt(args[1]); 
String text = in.readAl1().replaceAl1("\\s+", " ");; 
int N = text.length(); 
SuffixArray sa = new SuffixArray(text); 
while (StdIn.hasNextLine()) 
{ 
String q = StdIn.readLine(O); 
for (int i = sa.rank(q); i <N && Sa.select(i).startswith(q); i++) 
让 
int from = Math.max(0, sa.index(i) - context); 
int to = Math.min(N-1, from + q.length() + 2*context); 
StdOut.printin(text. substring(from, to)); 
} 
StdOut.print1nO; 
+ 
} 
上 下 文中 的 关键 词 的 索引 用 例 
% java KWIC tale.txt 15 
search 
0 st giless to search for contraband 
her unavailing search for your fathe 
le and gone in search of her husband 
t provinces in search of impoverishe 
dispersing in search of other carri 
n that bed and search the straw hold 
better thing 
t is a far far better thing that i do than 
Some sense of better things else forgotte 
was capable of better things mr carton ent Eh 
6.0.3.6 实现 


算法 6.13 中 的 代码 简洁 明了 地 实现 了 SuffixArry 的 API。 它 的 实例 变量 包括 一 个 字符 品 数 
组 和 ( 为 了 节省 代码 ) 一 个 表示 数组 长 度 的 的 变量 N ( 既是 字符 串 的 长 度 也 是 它 的 后 级 字符 串 数 
量 ) 。 类 的 构造 函数 会 构造 后 缀 数组 并 将 它 排序 ， 因 此 select(i) 只 需 返 回 suffixes[i] 即 可 。 
indexQ 的 实现 也 只 要 一 行 代码 ， 但 稍微 复杂 因为 后 织 字 符 事 的 长 度 就 说 明了 它 的 起 始 位 
置 。 长 度 为 N 的 后 组 字符 串 的 起 始 位 置 为 0， 长 度 为 N-1 的 后 组 字符 串 的 起 始 位 置 为 1， 长度 为 
入 2 的 后 级 字符 串 的 起 始 位 置 为 2， 依 此 类 推 。 因 此 index(i) 的 返回 值 即 为 N-suffixes [i] . 
length()。 由 6.0.3.2 节 中 的 静态 1cpQ 方法 可 以 很 容易 得 到 这 里 的 1cp0) 方法 的 实现 ， rankO) 
方法 与 3.1.5 节 “ 算 法 3.2 ( 续 ) ”中 基于 二 分 查找 的 符号 表 的 实现 也 基本 相同 。 同样 ， 实 现 的 简洁 
与 优雅 并 不 能 掩盖 这 是 一 种 复杂 的 算法 ， 它 解决 了 如 最 长 重复 子 字符 串 这 种 其 他 方法 无 法 解决 的 重 
要 问题 。 
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6.0.3.7 性 能 

后 绷 排 序 算法 的 效率 取决 于 Java 的 子 字符 串 提取 操作 使 用 的 内 存 空间 ， 它 是 一 个 常数 一 一 每 
个 子 字符 串 都 是 由 标准 对 象 、 指 向 原 字符 串 的 指针 和 它 的 长 度 组 成 的 。 因 此 ， 索 引 的 大 小 和 字符 串 
的 长 度 是 线性 关系 。 这 让 人 有 些 意外 ， 因 为 所 有 子 字符 串 中 的 字符 总 数 为 - N/2， 即 字符 串 长 度 的 
平方 级 别 。 另 外 ， 这 种 平方 级 别 的 性 能 也 会 大 大 影响 子 字符 串 数组 的 排序 成 本 。 我 们 要 记 住 的 重要 
一 点 是 ， 这 种 方法 对 长 字符 串 有 效 的 原因 在 于 Java 的 字符 串 表示 方法 : 当 交 换 两 个 字符 串 时 ， 
交换 的 仅仅 是 对 它们 的 引用 ， 而 非 字符 串 本 身 。 虽 然 当 两 个 字符 串 有 很 长 的 公共 前 缀 时 比较 它们 的 
成 本 与 它们 的 长 度 成 正比 ， 但 在 一 般 的 应 用 场景 下 ， 大 多 数 比较 都 只 需要 检查 几 个 字符 。 如 果 是 这 
样 的 话 ， 后 组 数组 的 排序 时 间 就 是 线性 对 数 的 。 例 如 ,在 许多 应 用 中 ， 随 机 字符 串 模型 都 是 合理 的 。 









命题 C。 使 用 三 向 字符 串 快速 排序 ， 构 造 长 度 为 N 的 随机 字符 事 的 后 组 数组 ， 平 均 所 需 的 空间 
与 N 成 正比 ， 字 符 比 较 次 数 与 ~ 2NInN 成 正比 。 


讨论 。 后 级 数组 的 空间 需求 很 明显 ， 但 它 所 需 的 时 间 来 自 于 PJaquet 和 W.Szpankowski 的 一 份 
艰深 而 复杂 的 研究 成 果 。 他 们 证 明了 将 所 有 后 组 排序 的 成 本 渐进 于 将 N 个 随机 字符 囊 排序 的 成 
本 (请 见 5.1.4.4 节 中 的 命题 E) 。 


算法 6.13 ”后 缀 数组 (初级 实现 ) 


public class SuffixArray 





{ 

private final String[] suffixes; // 后 级 数组 
private final int Ni; // 字符 囊 (和 数组 ) 的 长 度 
public SuffixArray(String s) 
{ 

N = s.lengthO; 

suffixes = new String[N]; 

for (int 1 = 0; 1 < N; i++) 

suffixes[i] = s.substring(i); 

Quick3way. sort(suffixes); 
} 
public int length() { return N; } 
public String select(int 1) { return suffixes[i]; } 
public int index(int i) { return N - suffixes[i].1lengthO); } 


// 请 见 6.0.3.2 节 框 注 “ 两 个 字符 囊 的 最 长 公共 前 组 
public int lcpCint i) 
{ return lcp(suffixes[i], suffixes[i-1]); } 
public int rank(String key) 
{ // 二 分 查找 
int lo=0, hi=N-1; 
while (lo <= hi) 
{ 
int mid = lo + (hi - 10) / 2; 
int cmp = key.compareTo(suffixes[mid]); 
if cmp < 0) hi = mid - 1; 
else if (cmp > 0) lo = mid + 1; 
else return mid; 


return 1o; 


} 
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SuffixArray API 的 实现 效率 取决 于 Java 的 String 类 的 不 可 改变 性 ， 这 种 性 质 使 得 子 字符 串 实 际 上 都 


是 引用 ,提取 子 字符 串 只 需 常数 时 间 ( 请 见 正文 ) 。 





6.0.3.8 ”改进 的 实现 

SuffixArray 的 初级 实现 在 最 坏 情 况 下 
的 性 能 很 糟 。 例 如 ， 如 果 所 有 的 字符 都 相同 ， 
后 组 数组 的 排序 会 检查 每 个 后 级 字符 串 中 的 每 
个 字符 ， 所 需 的 时 间 为 平方 级 别 。 对 于 我 们 用 
作 示例 的 碱 基 对 序列 字符 串 或 是 自然 语言 的 文 
本 字符 串 ， 这 可 能 不 是 问题 ， 但 算法 对 于 含有 
一 大 串 相同 字符 的 文本 可 能 会 很 慢 。 此 外 ， 查 
找 最 长 重复 子 字符 串 所 需 的 时 间 可 能 会 是 子 字 
符 事 长 度 的 平方 级 别 ， 因 为 重复 的 子 字符 串 的 
所 有 前 级 都 会 被 检查 ( 请 见 图 6.0.16 )。 对 于 ( 双 
城 记 》 来 说 这 不 是 问题 ， 因 为 其 中 最 长 的 重复 
子 字符 中 为 : 

"s dropped because it would have 


been a bad thing for me in a 
worldly point of view i" 


只 有 84 个 字符 。 然 而 ， 对 于 经 常 含有 很 
长 的 重复 部 分 的 碱 基 对 序列 来 说 ， 这 就 是 一 
个 严重 的 问题 了 。 如 何 避 免 查找 重复 子 字符 
串 时 出 现 的 这 种 平方 级 别 运算 呢 ? 幸运 的 是 ， 
了 Weiner 在 1973 年 的 研究 显示 我 们 可 以 保证 


输入 字符 串 
aacaag ttt acaag Cc 


最 长 重复 子 字符 串 的 所 有 后 级 字符 串 (M=5) 


它们 都 作为 某 个 
aag 王 一 后 级 字符 串 的 前 
ag 组 至 少 出 现 过 两 次 


有 序 的 后 组 字 符 串 
aacaagtttacaagc 
3 aag < 
aag tttacaagc 
5 acaag Cc 
acaag 
2 ag < 
ag tttacaagc 
[3 


tttacaagc 


caag c 
caag tttacaagc 
gc 

9 tttacaagc 
tacaagc 
ttacaagc 
tttacaagc 


号 


比较 成 本 至 少 为 
112+""+M~ M2 


图 6.0.16 查找 最 长 重复 子 字符 串 的 成 本 是 重复 子 
字符 串 长 度 的 平方 级 别 


在 线性 时 间 内 解决 最 长 重复 子 字符 囊 问题 。Weiner 算法 的 基础 是 构造 一 棵 后 缀 字符 串 树 ( 即 - 棵 由 
所 有 后 绥 字 符 串 组 成 的 字典 查找 树 ) 。 如 果 在 每 个 字符 处 使 用 多 个 链接 ， 后 组 树 在 解决 许多 实际 问 
题 时 会 消耗 非常 大 的 空间 ， 这 又 推动 了 后 组 数组 的 发 展 。 在 20 世纪 90 年 代 ，U.Manber 和 E.Myers 
演示 了 一 种 构造 后 级 数组 的 线性 对 数 级 别 的 算法 ， 以 及 一 个 同时 完成 预 处 理 和 对 后 缀 数组 排序 以 
支持 常数 时 间 的 1cp() 方法 。 之 后 人 们 又 发 明了 若干 线性 时 间 的 后 缀 排序 算法 。 经 过 一 些 改造 ， 
Manber Myers 算法 的 实现 也 能 够 支持 两 个 参数 的 1cp() 方法 ， 以 在 常数 时 间 内 找 出 给 定 的 但 不 一 
定 是 相 邻 的 两 个 后 缀 之 问 的 最 长 公共 前 缀 。 这 也 是 对 初级 实现 的 一 项 重大 改进 。 这 些 结果 非常 仿 人 
惊讶 ， 因 为 它们 所 达到 的 效率 远 远 超出 了 人 们 的 预期 。 


命题 D。 使 用 后 级 数组 ， 我 们 可 以 在 线性 时 间 内 解决 后 级 排序 和 最 长 重复 子 字符 串 问题 。 


证 明 。 解 决 这 些 问题 的 优美 算法 已 经 超出 了 本 书 的 范畴 ， 但 你 在 本 书 的 网 站 上 可 以 找到 线性 时 
间 的 SuffixArray 的 构造 函数 和 常数 时 间 的 1cp() 方法 的 实现 。 
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基于 这 些 思想 的 SuffixArray 实现 足以 高 效 解决 许多 字符 串 处 理 问题 ， 而 且 用 例 代码 非常 简 
单 ， 如 我 们 的 LRS 和 KWIC 例子 所 示 。 

后 级 数组 是 自 20 世纪 60 年 代 解决 KWIC 索引 的 单词 查找 树 以 来 数 十 年 研究 积累 的 成 果 。 我 们 
讨论 的 很 多 种 算法 都 是 许多 研究 者 在 几 十 年 的 实践 中 发 明 的 ， 这 些 问题 包括 将 《牛津 英语 大 词典 》 
搬 上 互联 网 .第 一 代 搜索 引擎 以 及 人 类 基因 组 测序 ,等 等 ,这 完全 说 明了 算法 的 设计 和 分 析 的 重要 性 。 


为 0 一 1 一 3 一 5 
分 配 2 个 单位 
的 流量 








为 0 一 2 一 4 一 5 分 配 
1 个 单位 的 流量 . 


将 1 个 单位 的 流量 
从 1 一 3 一 5 重新 
分 配 至 1 一 4 一 5 





为 0 一 2 一 3 一 5 分 配 [人 T 
1 个 单位 的 流量 


图 6.0.17 ”为 输 油 网 络 分 配 流量 


6.0.4 ”网 络 流 算法 

下 面 我 们 将 讨论 一 种 图 的 模型 ， 它 的 成 功 之 处 不 仅 在 于 为 
我 们 提供 了 能 够 轻松 描述 解决 实际 问题 的 模型 ， 而 且 使 用 这 些 
模型 我 们 能 得 到 许多 高 效 的 算法 来 解决 问题 。 我 们 将 要 讨论 的 
解决 方案 说 明了 两 种 特定 需求 之 间 的 矛盾 ， 即 具有 广泛 适用 性 
的 需求 与 能 够 解决 特殊 问题 的 需求 。 网 络 流 算法 研究 的 迷人 之 
处 在 于 它 紧凑 优雅 的 实现 几乎 能 够 同时 达到 这 两 个 目标 。 你 将 
会 看 到 ， 我 们 的 实现 非常 易 慌 而 且 能 够 保证 运行 时 间 与 网 络 大 
小 成 正比 。 

网 络 流 问题 的 经 典 解决 方案 和 第 4 章 中 介绍 的 那些 图 算法 
紧密 相关 。 基 于 已 有 的 工具 ， 我 们 可 以 编写 非常 精炼 的 程序 来 
解决 它们 。 我 们 已 经 在 许多 问题 中 看 到 ， 良 好 的 算法 和 数据 结 
构 能 够 大 幅 减少 解决 问题 所 需 的 时 间 。 人 们 还 在 积极 研究 该 领 
域 中 更 好 的 算法 和 数据 结构 并 不 断 地 发 明 新 的 方法 。 
6.0.4.1 物理 模型 

首先 用 一 个 理想 化 的 物理 模型 来 介绍 几 个 直观 的 概念 。 请 
想象 一 组 相互 连接 大 小 不 一 的 输油管 道 ， 在 连接 处 装 有 能 够 控 
制 原油 流向 的 开关 ， 如 图 6.0.17 所 示 。 

我 们 还 假设 这 个 输 油 网 只 有 一 个 入 口 ( 比如 一 处 油田 ) 和 
一 个 出 口 〈 比如 一 个 大 型 的 炼油 厂 ) ， 所 有 的 输油管 最 终 都 会 
和 它们 相连 。 在 每 个 结 点 处 ， 原 油 流入 量 和 流出 量 都 会 达到 的 
平衡 。 我 们 用 相同 的 单位 衡量 流量 和 管道 的 输送 能 力 ( 例如 ， 
加 仑 每 秒 ) 。 如 果 在 每 个 开关 处 都 有 流入 管道 的 总 流量 和 流出 
管道 的 总 流量 相等 ， 那 么 问题 就 不 存在 了 : 只 需要 将 所 有 输 油 
管 充满 即 可 。 和 否则 ， 虽 然 并 不 是 所 有 管道 都 是 饱和 的 ， 但 原油 
仍然 会 根据 各 个 关节 处 的 开关 设置 在 网 络 中 流动 ， 并 将 在 关节 
处 满足 一 个 局 部 平衡 条 件 : 流入 结 点 的 流量 等 于 流出 结 点 的 流 
量 ,请 见 图 6.0.18。 


在 每 个 结 点 处 人 流 ”SA 
最 都 和 出 流量 相等 
CR) 


1 


图 6.0.18 流量 网 络 中 的 局 部 平衡 
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例如 ， 如 图 6.0.17 所 示 ， 一 开始 操作 员 可 能 会 将 原油 的 路 径 设 为 0 一 1 一 3 一 5， 这 条 路 线 能 
够 输送 2 个 单位 的 流量 , 然后 再 打开 0 一 2 一 4 一 5 这 条 路 径 上 的 开关 , 又 可 以 输送 1 个 单位 的 流量 。 
因为 0 一 1、2 一 4 和 3 一 5 都 已 经 他 和 ， 已 经 无 法 直接 将 更 多 的 原油 从 0 输送 到 5。 但 如 果 调 整 1 
处 的 开关 将 1 一 4 充满 ， 那 么 就 又 可 以 在 3 一 5 空 出 足够 的 空间 使 得 0 一 2 一 3 一 5 可 以 再 增加 1 
个 单位 的 流量 。 即 使 是 这 样 一 个 简单 的 网 络 ， 找 到 能 够 使 得 流量 最 大 化 的 开关 配置 也 并 不 容易 ; 而 
对 于 更 加 复杂 的 网 络 ， 我 们 感 兴趣 的 显然 是 下 面 这 个 问题 ， 怎 样 配置 所 有 开关 才能 使 从 入 口 到 出 口 
的 流量 最 大 化 ? 我 们 可 以 直接 用 只 含有 一 个 起 点 和 一 个 终点 的 加 权 有 向 图 构造 出 这 个 问题 的 模型 。 
图 中 的 边 对 应 的 是 输油管 道 ， 顶 点 对 应 的 是 配 有 能 够 控制 原油 走向 和 流量 的 开关 结 点 ， 边 的 权重 对 
应 的 是 管道 的 容量 ， 请 见 图 6.0.19。 我 们 假设 边 是 有 向 的 ， 即 原油 在 每 个 管道 中 都 只 能 朝 着 一 个 方 
向 流动 。 每 条 管道 中 都 流动 着 一 定量 的 原油 ， 流 量 小 于 等 于 管道 的 容量 ， 而 每 个 顶点 都 需要 满足 流 
人 量 和 流出 量 相等 。 这 种 抽象 的 流量 网 络 是 一 个 能 够 解决 问题 的 实用 模型 ， 它 能 够 直接 应 用 于 许多 
场景 ， 而 间接 适用 的 则 更 多 。 我 们 有 时 会 用 原油 流 过 管道 的 方式 直观 地 说 明 一 些 基本 的 概念 ， 但 这 
里 的 讨论 同样 适用 于 物流 分 配 的 通道 等 情况 。 鉴 于 我 们 在 各 种 最 短路 径 算法 中 对 “距离 "概念 的 用 法 ， 
在 必要 的 时 候 会 抛弃 图 的 所 有 物理 意义 ， 因 为 我 们 讨论 的 所 有 定义 、 性 质 和 算法 所 基于 的 抽象 模型 
并 不 一 定 遵守 物理 定律 。 事 实 上， 人们 对 网 络 流 问题 的 主要 兴趣 在 于 许多 其 他 问题 都 能 转化 为 这 个 
模型 ， 下 一 个 小 节 中 将 会 详 述 。 





tinyFN, txt 标准 图 流量 的 表示 
起 点 
rv ~ 0 2.0 
i QO .0 1.0 
的 2 0 2.0 
02 3.0 0 9 :0 0.0 
13 3.0 0 1.0 
14 1.0 0 2.0 
23 1.0 0 1.0 
24 1.0 
35 2.0 
45 3.0 每 条 边 所 
1 关联 的 流量 
容量 下 终点 
图 6.0.19 网 络 流 问题 详解 
6.0.4.2 定义 


因为 它 广泛 的 应 用 性 ， 我 们 需要 用 精确 的 语言 说 明 刚才 介绍 的 通俗 的 概念 和 术语 。 


定义 。 一 个 流量 网 络 是 一 张 边 的 权重 (这 里 称 为 容量 ) 为 正 的 加 权 有 向 图 。 一 个 st- 流量 网 络 有 
两 个 已 知 的 顶点 ， 即 起 点 s 和 终点 t。 


有 时 我 们 会 认为 某 些 边 的 容量 是 无 限 的 ， 或 者 说 是 没有 容量 限制 的 。 这 表示 不 会 将 其 中 的 流量 
和 它 的 容量 进行 比较 ， 或 者 它 的 容量 必然 比 所 有 流量 都 大 。 我 们 将 流向 一 个 顶点 的 总 流量 ( 所 有 指 
向 该 顶点 的 边 中 的 流量 之 和 ) 称 为 该 顶点 的 流入 量 ， 流 出 一 个 顶点 的 总 流量 ( 由 该 顶点 指出 的 所 有 
边 中 的 流量 之 和 ) 称 为 该 项 点 的 流出 量 , 而 两 者 之 差 ( 流入 量 减 去 流出 量 ) 则 为 称 为 该 顶点 的 净 流 量 。 
为 了 简化 讨论 ， 我 们 假设 没有 从 t 指出 的 边 或 是 指向 s 的 边 。 
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定义 。st- 流量 网 络 中 的 sf- 流量 配置 是 由 一 组 和 每 条 边 相 关联 的 值 组 成 的 集合 ， 这 个 值 被 称 为 
边 的 流量 。 如 果 所 有 边 的 流量 均 小 于 边 的 容量 且 满 足 每 个 顶点 的 局 部 平衡 ( 即 净 流 量 均 为 零 ， 
s 和 七 除 外 ) ， 那 么 就 称 这 种 流量 配置 方案 是 可 行 的 。 


我 们 将 终点 的 流入 量 称 为 st- 流量 的 值 。 命 题 C 将 会 证 明 这 个 值 和 起 点 的 流出 量 是 相等 的 。 有 
了 这 些 定义 ， 就 能 够 正式 地 描述 这 个 基本 问题 了 。 
最 大 st- 流量 。 给 定 一 个 st- 流量 网 络 ， 找 到 一 种 st- 流量 配置 ， 使 得 从 s 到 t 的 流量 最 大 化 。 
为 了 简洁 ， 我 们 将 这 样 的 流量 配置 称 为 最 大 流量 ， 那 么 在 网 络 中 寻找 这 种 配置 的 问题 就 是 一 个 
887| 最 大 流量 问题 。 在 某 些 应 用 中 ， 只 需要 知道 最 大 流量 的 值 即 可 ,但 一 般 情况 下 人 们 还 是 希望 知道 达 
888| ”到 该 值 的 具体 流量 配置 ( 各 条 边 的 流量 值 ) 。 














private boolean localEq(FlowNetwork G, int v) 
{ // 检查 每 个 顶点 v 的 局 部 平衡 
double EPSILON = 1E-11; 
double netflow = 0.0; 
for (FlowEdge e : G.adj(v)) 
if (v == e.fromO) netflow -= e.flowO); 
else netflow += e.flow(); 


return Math.abs(netflow) < EPSILON; 
} 


private boolean isFeasible(FlowNetwork G) 
{ 
// 确认 每 条 边 的 流量 非 负 且 不 大 于 边 的 客 量 
for (int v = 0; v < G.VO; v++) 
for (FlowEdge e : G.adj(v)) 


if (e.flow() < 0 || e.flowO > e.capO) 
return false; 


// 检查 每 个 顶点 的 局 部 平衡 
for (int v = 0; Vv < G.VO; v++) 
if (v l=s && Vv != t && !localEq(v)) 
return false; 


return true; 
} 


检查 流量 网 络 中 的 一 种 流量 配置 是 否 可 行 


6.0.4.3 API 
表 6.0.4 和 表 6.0.5 所 示 的 FlowEdge 和 FlowNetwork 简单 扩展 了 第 3 章 中 相应 API。 我 们 将 会 
在 6.0.4.6 节 学 习 FlowEdge 的 一 种 实现 ， 它 的 基础 是 4.3.2 节 中 的 WeightedEdge 类 并 添加 了 一 个 实 
例 变量 来 保存 边 的 流量 。 流 量 是 有 方向 的 ， 但 FlowEdge 的 基 类 并 不 是 WeightedDirectedEdge， 
因为 它 还 需要 解决 下 面 将 要 描述 的 一 个 更 加 抽象 的 剩余 网 络 问题 。 我 们 需要 使 每 条 边 都 出 现在 它 
的 两 个 顶点 的 邻接 表 中 才能 实现 剩余 网 络 。 剩 余 网 络 能 够 增 减 流量 并 检测 一 条 边 是 否 已 经 亿 和 
(无 法 再 增 大 流量 ) 或 者 是 否 为 空 ( 无 法 再 减 小 流量 ) 。 这 些 抽象 是 通过 residualCapacity() 
和 addResidualFlow() 方法 实现 的 ， 我 们 将 在 之 后 讨论 它们 。F1owNetwork 的 实现 与 4.3.2 节 中 
WeightedEdge 的 实现 基本 相同 , 因此 这 里 将 它 省 略 。 为 了 简化 文件 格式 , 我 们 约定 起 点 的 编号 为 0， 
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终点 的 编号 为 V-1, 请 见 图 6.0.20, 有 了 这 些 API 之 后 最 大 流量 算法 的 目标 就 很 明确 了 : 构造 一 个 网 络 ， 
计算 所 有 边 中 保存 流量 的 实例 变量 的 值 并 使 得 网 络 中 的 流量 最 大 化 。 框 注 所 示 的 是 检验 一 个 流量 配 
置 方案 是 否 可 行 的 用 例 代码 ， 一 般 会 将 这 种 检查 作为 最 大 流量 算法 的 最 后 一 步 。 


表 6.0.4 流量 网 络 中 的 边 的 API 


一 


public class FlowEdge 
FlowEdge(int v, int w, double cap) 








int fromO) 这 条 边 的 起 始 顶 点 
int toO 这 条 边 的 目的 顶点 
int otherCint v) 边 的 另 一 个 顶点 
double capacity() 边 的 容量 
double flowO 边 中 的 流量 
double residualCapacityToCint v) v 的 剩余 容 量 
double addFlowToCint v, double delta) 将 v 的 流量 增加 de1ta 
String toString() 对 象 的 字符 申 表示 


表 6.0.5 流量 网 络 的 API 


— 


public class FlowNetwork 

































































































































FlowNetwork(Cint V) 创建 一 个 含有 V 个 顶点 的 空 网 络 
FlowNetwork(In in) 从 输入 流 中 构造 流量 网 络 
int VO 顶点 总 数 
int EQO 边 的 总 数 
void addEdge(FlowEdge e) 向 流量 网 络 中 添加 边 @ 
Iterable<FlowEdge> adj(int v) 从 v 指 出 的 边 
Iterable<FlowEdge> edges() 流量 网 络 中 的 所 有 边 
String toStringO) 对 象 的 字符 串 表示 
tinyFN. txt 指向 相同 FlowEdge 
vA 对 象 的 引用 
6 gE adj[] 
8 0 2.0 0|112.0|2.0 
01 2.0 1 
De a 2 ~[z[4P.op.o--[z[3Tiofoo [oT2 T3010 
人 | |、~[ls[z.ofz.oh-[zTap.ofooH-[aTs oo 
2 4 1.0 下 可 
35 2.0 本 slsk.ofi.0}-[z2T14 fi.of1.0}- (214 Ti.ofo.o 
驮 53.0 
~[s1sf.of.o 31s [2.of2.0 全 



































图 6.0.20 ”流量 网 络 的 表示 
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从 0 到 5 的 所 有 路 
径 中 都 含有 一 条 
饱和 的 边 








为 路 径 0 一 2 一 3 增 
加 1 个 单位 的 流 


失去 平衡 一 


从 路 径 1 一 3 减少 
1 个 单位 的 流量 
(遍历 是 的 方向 
为 3 一 1) 
失去 平衡 一 | 





为 路 径 1 一 '4 一 5 增 
加 1 个 单位 的 流量 


图 6.0.21 一 条 增 广 路 径 (0 
-2— 3 


1 一 4 一 引 


6.0.4.4 ”Ford-Fulkerson 算法 

在 1962 年 ，L.R.Ford 和 D.R_Fulkerson 发 明了 一 种 解决 最 大 流 
量 问题 的 有 效 方法 。 它 是 一 种 沿 着 由 起 点 到 终点 的 路 径 逐 步 增加 流 
量 的 通用 方法 ， 因 此 它 也 是 同类 算法 的 基础 。 在 经 典 文献 中 它 被 称 
为 Ford-Fulkerson 算法 ， 但 它 也 被 称 为 增 广 路 径 算 法 。 考 虑 一 个 st- 
流量 网 络 中 的 任意 一 条 从 起 点 到 终点 的 有 向 路 径 。 假 设 x 为 该 路 径 
上 的 所 有 边 中 未 使 用 容量 的 最 小 值 。 那 么 只 需 将 所 有 边 的 流量 增 大 x 
即 可 将 网 络 中 的 总 流量 至 少 增 大 x。 反 复 这 个 过 程 ， 就 得 到 了 第 一 种 
计算 网 络 中 的 流量 分 配方 法 : 找到 另 一 条 路 径 , 增 大 路 径 中 的 流量 ， 
如 此 反复 , 直到 所 有 从 起 点 到 终点 的 路 径 上 至 少 有 一 条 边 是 饱和 的 。 
( 这样 在 这 条 路 径 上 就 无 法 继续 增 大 流量 了 。 ) 这 种 方法 在 某 些 情 
况 下 能 够 计算 出 网 络 中 的 最 大 流量 , 但 在 有 些 情况 下 不 行 ， 图 6.0.17 
就 是 这 类 情况 。 为 了 改进 算法 使 之 总 是 能 够 找到 最 大 流量 ， 就 要 用 
另 一 种 更 加 通用 的 方式 增 大 网 络 中 的 流量 ， 即 将 依据 变 为 网 络 所 对 
应 的 无 向 图 中 从 起 点 到 终点 的 路 径 。 在 这 样 的 路 径 中 ， 当 沿 着 路 径 
从 起 点 向 终点 前 进 时 , 经 过 某 条 边 时 的 方向 可 能 和 流量 的 方向 相同 ， 
那 这 条 边 即 为 正 向 边 ; 也 可 能 和 流量 的 方向 相反 ， 那 这 条 边 即 为 逆 
向 边 。 现 在 ， 对 于 任意 非 饱 和 正 向 边 和 非 空 逆向 边 ， 我 们 可 以 通过 
增加 正 向 边 的 流量 和 降低 逆向 边 的 流量 来 增加 网 络 中 的 总 流量 。 流 
量 的 增 量 受 路 径 上 的 所 有 正 向 边 的 未 使 用 容量 最 小 值 和 所 有 逆向 边 
的 流量 的 限制 。 这 样 的 一 条 路 径 被 称 为 增 广 路 径 ， 比 如 图 6.0.21。 
在 新 的 流量 配置 中 ， 路 径 中 至 少 有 一 条 正 向 边 达到 了 饱和， 或 是 至 
少 有 一 条 逆向 边 为 空 。 以 上 所 述 的 过 程 就 是 经 典 的 Ford-Fulkerson 算 
法 ( 增 广 路 径 算法 ) 的 基础 。 我 们 将 它 总 结 如 下 。 





Ford-Fulkerson 最 大 流量 算法 。 网 络 中 的 初始 流量 为 零 ， 沿 着 
任意 从 起 点 到 终点 〔 且 不 含有 他 和 的 正 向 边 或 是 空 逆 向 边 ) 的 
增 广 路 径 增 大 流量 ， 直 到 网 络 中 不 存在 这 样 的 路 径 为 止 。 


令 人 惊讶 的 是 ( 在 关于 流量 性 质 的 一 定 技术 性 限制 之 下 ) ,无 论 
我 们 如 何 选择 路 径 ， 该 方法 总 能 找 出 最 大 流量 。 如 同 43 节 中 讨论 的 贪 
心 最 小 生成 树 算法 和 44 节 中 讨论 的 通用 最 短路 径 算法 一 样 ， 它 的 意义 
在 于 证 明了 所 有 同类 算法 的 正确 性 。 我 们 可 以 用 任何 方法 选择 路 径 。 
人 们 发 明了 多 种 算法 来 计算 增 广 路 径 的 序列 ， 以 计算 最 大 流量 。 这 些 
算法 的 不 同 之 处 在 于 它们 得 到 的 增 广 路 径 数量 和 得 到 每 条 路 径 的 成 本 ， 
但 它们 实现 的 都 是 Ford-Fulkerson 算法 并 能 够 找到 网 络 的 最 大 流量 。 


6.0.4.5 ”最 大 流 一 最 小 切 分 “定理 
为 了 证 明 Ford-Fulkerson 算法 的 任意 实现 所 计算 得 到 的 流量 确实 是 最 大 流量 ， 需 要 证 明 一 个 


外 也 有 时 译 为 “最 大 流 - 最 小 割 ”。 一 一 编者 注 
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叫做 最 大 流 - 最 小 切 分 的 关键 定理 。 理 解 这 个 定理 是 理解 所 有 网 络 流 算法 中 最 重要 的 一 步 。 顾 名 
思 义 , 定理 的 基础 是 网 络 中 的 流量 和 切 分 的 关系 , 因此 需要 先 定 义 和 切 分 有 关 的 名 词 。 回 顾 4.3 节 ， 
图 的 切 分 是 将 所 有 项 点 分 为 两 个 不 相交 的 集合 ， 而 一 条 横 切 边 则 是 连接 分 别 存在 于 两 个 集合 中 的 
两 个 顶点 的 一 条 边 。 对 于 流量 网 络 ， 我 们 将 它们 的 定义 提炼 如 下 。 


定义 。st- 切 分 是 一 个 将 顶点 和 顶点 ! 分 配 于 不 同 集合 中 的 切 分 。 


在 一 个 st- 切 分 中 ， 每 条 横 切 边 要 么 是 一 条 由 含有 
< 的 集合 指向 含有 1 的 集合 的 sf 边 ， 要 么 是 一 条 反方 向 
的 - 边 。 有 时 我 们 将 st 边 的 集合 称 为 一 个 切 分 入。 在 
流量 网 络 中 ， 一 个 st- 切 分 的 容量 为 该 切 分 的 sr- 边 的 容 
量 之 和 ，s- 切 分 的 路 切 分 流量 flow across ) 是 切 分 的 
所 有 st- 边 的 流量 之 和 与 所 有 4- 边 的 流量 之 和 的 差 。 在 
网 络 中 删 去 st- 切 分 的 所 有 st- 边 ( 即 切 分 集 ) 将 会 切断 
所 有 从 s 到 ; 的 路 径 。 而 重新 添加 其 中 的 任意 一 条 边 者 
会 得 到 一 条 从 到 1 的 路 径 。 切 分 能 够 抽象 许多 应 用 。 
比如 我 们 的 原油 流量 模型 ， 切 分 会 从 人 口 流向 出 口 的 原 人 
油 完全 切断 。 如 果 将 切 分 的 容量 看 作 这 么 做 的 成 本 ， 屠 
么 切断 流量 的 最 有 效 方法 是 解决 以 下 问题 。 

最 小 st- 切 分 。 给 定 一 个 st- 网络， 找到 容量 最 小 的 sf- 切 分 。 简 单 起 见 ， 我 们 将 这 样 的 切 分 称 
为 最 小 切 分 ， 而 将 在 网 络 中 找到 它 的 问题 称 为 最 小 筷 分 问题 。 

最 小 切 分 问题 的 定义 中 并 没有 提 到 流量 ， 而 且 这 些 定义 似乎 和 增 广 路 径 算法 无 关 。 从 表面 上 来 
看 ， 计 算 最 小 切 分 (得 到 一 组 边 ) 似乎 比 计算 最 大 流量 ( 为 所 有 的 边 髓 权 值 ) 更 容易 。 但 实际 上 ， 
最 大 流量 和 最 小 切 分 问题 是 紧密 相关 的 。 增 广 路 径 算法 本 身 就 是 证 明 。 流 量 和 切 分 的 以 下 基本 关系 
即 可 证 明 st- 流量 网 络 中 的 局 部 平衡 即 意味 着 整个 网 络 的 全 局 平衡 (推论 一 ) ， 并 且 可 以 得 到 任意 
st 流量 值 的 上 界 ( 推论 二 ) 。 






流入 量 和 流出 量 之 
-一 差 即 为 跨 切 分 流量 


命题 E。 对 于 任意 st- 流量 网 络 ， 每 种 st- 切 分 中 的 跨 切 分 流量 都 和 总 流量 的 值 相等 。 


证 明 。 设 C, 为 含有 顶点 > 的 集合 ，C, 为 含有 顶点 ! 的 集合 。 对 C 使 用 归纳 法 ; 当 C) 仅 含有 ! 
时 该 命题 成 立 ， 若 将 一 个 顶点 由 C, 移动 到 C,， 则 该 结 点 处 的 局 部 平生 意味 着 可 以 一 直 保 持 该 性 
质 。 因 此 ， 通 过 移动 顶点 可 以 得 到 任意 st- 切 分 。 


推论 。s 的 流出 量 等 于 1 的 流入 量 ( 即 st- 流量 网 络 的 值 ) 。 
证 明 。 令 Cs 为 {s} 即 可 。 











推论 。sf- 流量 网 络 的 值 不 可 能 超过 任意 st- 切 分 的 容量 。 893 
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命题 F〈 最 大 流量 -最 小 切 分 定理 ) 。 令 /为 一 个 st- 流量 网 络 ， 以 下 三 种 条 件 是 等 价 的 : 
i 存在 某 个 st- 切 分 ， 其 容量 和 .的 流量 相等 ; 
让 7 达到 了 最 大 流量 ; 
这 了 中 已 经 不 存在 任何 增 广 路 径 。 


证 明 。 根 据 命题 E 的 推论 ， 我 们 可 以 由 条 件 i 得 到 条 件 ii。 因 为 增 广 路 径 的 存在 意味 着 存在 某 
个 流量 更 大 的 网 络 配置 ， 这 与 了 的 最 大 性 相 冲 突 ， 因 此 由 条 件 下 也 可 以 得 到 条 件 证。 

但 还 需要 证 明 条 件 这 和 条 件 i 等 价 。 令 C, 为 由 s 通过 所 有 不 含有 任何 侈 和 正 向 边 或 空 递 向 边 的 
无 向 路 径 可 达 的 所 有 顶点 组 成 的 集合 , 令 C, 为 其 余 的 顶点 的 集合 of 必然 存在 于 Ci 中 , 因此 (CuC) 
为 一 个 st- 切 分 。 它 的 切 分 集 完全 由 饱和 正 向 边 和 空 递 向 边 组 成 。 该 切 分 的 跨 切 分 流量 和 它 的 容 
量 相等 (因为 所 有 正 向 边 都 是 他 和 的 ， 而 所 有 北向 边 都 是 空 的 ) ， 即 等 于 网 络 中 的 总 流量 (由 
命题 E 可 得 ) 。 


推论 (完整 性 ) 。 当 所 有 容量 均 为 整数 时 ， 存 在 一 个 整数 值 的 最 大 流量 ， 而 Ford-Fulkerson 算 
法 能 够 找 出 这 个 最 大 值 。 


证 明 。 每 条 增 广 路 径 都 会 将 总 流量 增 大 某 个 正 整数 值 ( 正 向 边 中 未 使 用 容量 的 最 小 值 和 逆向 边 
的 容量 都 是 正 整数 ) 。 


即使 所 有 边 的 容量 均 为 整数 ， 我 们 也 可 以 设计 出 能 够 达到 最 大 流量 的 非 整数 配置 ， 但 这 里 不 
需要 考虑 这 样 的 配置 。 从 理论 角度 来 说 ， 下 面 的 意见 是 很 重要 的 ;我 们 已 经 演示 过 并 且 实际 情况 
也 需要 允许 容量 和 流量 可 以 为 实数 ， 但 它 会 导致 一 些 异常 情况 。 例 如 ， 已 知 Ford-Fulkerson 算法 
在 原则 上 可 能 得 到 无 穷 多 的 增 广 路 径 以 至 于 无 法 收敛 到 某 种 最 大 流量 的 配置 。 我 们 讨论 的 这 个 版 
本 总 是 可 以 收敛 的 ， 即 使 是 实数 值 的 容量 和 流量 也 不 例外 。 无 论 我 们 用 什么 方法 寻找 增 广 路 径 ， 
无 论 我 们 找到 了 什么 样 的 路 径 ， 最 后 总 是 能 够 得 到 一 种 不 存在 任何 增 广 路 径 的 流量 配置 ， 即 最 大 
流量 的 配置 。 
6.0.4.6 ”剩余 网 络 

通用 的 Ford-Fulkerson 算法 并 没有 指定 寻找 增 广 路 径 的 方法 。 如 何 才能 找到 不 含有 饱和 正 向 边 
和 空 逆向 边 的 路 径 呢 ?为 此 ,我们 给 出 如 下 定义 。 





定义 。 给 定 某 个 st- 流量 网 络 和 其 st- 流量 配置 ， 这 种 配置 下 的 利 余 网 络 中 的 顶点 和 原 网 络 相同 。 
原 网 络 中 的 每 条 边 都 对 应 着 剩余 网 络 中 的 1 ~ 2 条 边 。 它 的 定义 如 下 ; 对 于 原 网 络 中 的 每 条 从 
顶点 v 到 内 的 边 e， 令 大 表示 它 的 流量 、c. 表 示 它 的 容量 。 如 果 太 为 正 ， 将 边 w 一 v 加 入 剩余 
网 络 且 容量 为 大 ， 如 果 太 小 于 cx， 将 边 v 一 W 加 入 剩余 网 络 且 容量 为 cf.。 


如 果 从 v 到 w 的 边 e 为 空 ( 即 大 为 0) ,剩余 网 络 中 就 只 有 一 条 容量 为 c. 的 边 v 一 w 与 之 对 应 ; 
如 果 该 边 饱和 ( 即 大 等 于 c. ) , 剩余 网 络 就 只 有 一 条 容量 为 /的 边 w 一 v 与 之 对 应 ; 如 果 它 既 不 为 空 ， 
也 不 饱和 ， 那 么 剩余 网 络 中 将 含有 相应 容量 的 v 一 w 和 ww 一 vs 请 见 图 6.0.22。 





流量 的 表示 剩余 网 络 
01 2.0 2.0 
逆向 边 
02 3.0 1.0 
13 3.0 2.0 (实际 流量 ) 
14 1.0 0.0 
23 1.0 0.0 
24 1.0 1.0 
35 2.0 2.0 
45 3.0 1.0 
容量 ”流量 正 向 边 
(剩余 容量 ) 


图 6.0.22 ”网络 流 问题 详解 
乍 一 看 , 剩余 网 络 有 些 让 人 困惑 ， 因 为 与 流量 对 应 的 边 的 方向 却 和 流量 本 身 相反 。 正 向 边 表示 
的 是 剩余 的 容量 ( 即 如 果 选择 从 这 条 边 通行 所 能 增长 的 流量 ) ;逆向 边 表示 了 实际 流量 ( 即 如 果 选 
择 从 这 条 边 通行 将 会 减少 的 流量 ) 。 后 面 框 注 中 的 代码 给 出 了 在 FlowEdge 类 中 实现 剩余 网 络 这 种 
抽象 所 需 的 方法 。 通 过 这 些 实现 ， 虽 然 该 算法 处 理 的 是 剩余 网 络 ， 但 它 实 际 上 是 在 检查 所 有 剩余 的 
容量 并 ( 通过 边 的 引用 ) 修正 流量 配置。 


流量 网 络 中 的 边 剩余 网 络 ) 


public class FlowEdge 





private final int v; // 边 的 起 点 
private final int w; // 边 的 终点 
private final double capacity; // 容量 
private double flow; /1/ 流量 
public FlowEdge(int v, int w, double capacity) 
{ 

this.v = Vi 

this.w = w; 

this.capacity = capacity; 

this.flow = 0.0; 
} 
public int from() { return v; } 
public int to() { return w; } 
public double capacity() { return capacity; } 
public double flowO) { return flow; } 


public int other(int vertex) 
// 同 Edge 类 


public double residualCapacityTo(int vertex) 

if (vertex == v) return flow; 

else if (vertex == w) return capacity- flow; 

else throw new RuntimeException("Inconsistent edgé”); 
} 


public void addResidualFlowTo(int vertex, double delta) 
{ 
if (vertex == v) flow -= delta; 
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else if (vertex == Ww) flow 
else throw new RuntimeExc 


了 
public String toString() 
{ return String.format("%d->%d %.2f %.2f", v, w, capacity, flow); } 
3 
这 里 的 FlowEdge 类 的 基础 是 4.4 节 中 对 加 权 边 的 DirectedEdge 类 的 实现 ( 请 见 4.4.2 节 框 注 “ 加 
896] ” 权 有 向 边 的 数据 类 型 ”) ， 它 添加 了 一 个 实例 变量 flow 和 两 个 方法 来 实现 了 剩余 网 络 。 




















我 们 可 以 使 用 from() 和 other() 方法 处 理 两 个 方向 的 边 : e.other(v) 可 以 返回 e 的 两 个 
顶点 中 和 v 相对 的 男 一 个 顶点 。residualCapacityTo() 和 residualFlowTo() 方法 实现 了 剩余 
网 络 。 剩 余 网 络 使 得 我 们 可 以 通过 图 中 的 搜索 算法 寻找 增 广 路 径 ， 这 是 因为 在 剩余 网 络 中 所 有 从 
起 点 到 终点 的 路 径 都 是 原 流量 网 络 中 的 一 条 增 广 路 径 。 沿 着 增 广 路 径 增 大 流量 意味 着 修改 剩余 网 
络 。 例 如 ， 至 少 有 一 条 路 径 上 的 边 变 得 饱和 或 变 为 空 ， 因 此 在 剩余 网 络 中 至 少 有 一 条 边 将 会 改变 
方向 或 者 消失 。( 我 们 使 用 的 是 抽象 的 剩余 网 络 ,因此 只 会 检查 正 容量 , 不 需要 实际 插 人 或 删除 边 。) 


private boolean hasAugmentingPath(FlowNetwork G, int s, int t) 
局 


marked = new boolean[G.V()]; // 标记 路 径 已 知 的 顶点 
edgeTo = new FlowEdge[G.V()]; // 路 径 上 的 最 后 一 条 过 
Queue<Integer> q = new Queue<Integer>(); 


marked[s] = true; // 标记 起 点 
q.enqueue(s); // 并 将 它 入 列 
while (1q.isEmptyO) 

{ 


int v = q.dequeueO; 
for (FlowEdge e : G.adj(v)) 
{ 
int w = e.other(v); 
if (e.residualCapacityTo(w) > 0 && !marked[w]) 


{ // 《在 制 余 网 络 中 ) 对 于 任意 一 条 连接 到 一 个 未 
被 标记 的 顶点 的 边 
edgeTo[w] = e; // 保存 路 径 上 的 最 后 一 条 边 
marked[w] = true; 。 // 标记 W， 国 为 路 径 现 在 是 已 知 的 了 
q.enqueueCw); // 将 它 入 列 
} 


} 


return marked[t]; 
在 剩余 网 络 中 通过 广度 优先 搜索 寻找 增 广 路 径 


6.0.4.7 ”最 短 增 广 路 径 算法 

对 Ford-Fulkerson 算法 最 简单 的 实现 可 能 就 是 最 短 增 广 路 径 算法 了 ( 最 短 指 的 是 路 径 长 度 最 小 ， 
而 非 流量 或 是 容量 ) 。JEdmonds 和 R.Karp 在 1972 年 发 明了 这 个 算法 。 这 里 ， 增 广 路 径 的 查找 等 
价 于 剩余 网 络 中 的 广度 优先 搜索 ( BFS ) ， 如 4.1 节 所 述 。 你 也 可 以 将 hasAugmentingPath() 
的 实现 与 广度 优先 搜索 实现 的 算法 4.2 比较 一 下 。 ( 剩余 网 络 是 有 向 图 ， 因 此 这 实际 上 是 一 个 
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有 向 图 处 理 算法 。 ) 这 个 方法 为 完整 实现 剩余 网 络 的 算法 6.14 打下 了 基础 ， 它 非常 简洁 。 为 了 
方便 , 我 们 将 这 个 方法 称 为 最 短 增 广 路 径 的 最 大 流量 算法 。 它 处 理 样 例 数据 的 详细 轨迹 如 图 6.0.23 [897 
所 示 。 














算法 6.14 最短 增 广 路 径 的 Ford-Fulkerson 最 大 流量 算法 。 





public class FordFulkerson 
{ 
private boolean[] marked; // 在 制 余 网 络 中 是 否 存在 从 Ss 到 Vv 的 路 径 ? 
private FlowEdge[] edgeTo;  // 从 Ss 到 Vv 的 最 短路 径 上 的 最 后 一 条 边 
private double value; // 当前 最 大 流量 
public FordFulkerson(FlowNetwork G, int s, int t) 
{ // 找 出 从 s 到 t 的 流量 网 络 G 的 最 大 流量 配 轩 
while (hasAugmentingPath(G, s, t)) 
{ // 利用 所 有 存在 的 增 广 路 径 
// 计算 当前 的 产 天 容量 
double bottle = Double.POSITIVE_1NFINITY; 
for (int v = ti v != si v = edgeTo[v] .other(v)) 
bottle = Math.min(bottle, edgeTo[v].residualCapacityTo(v)); 
// 增 大 流量 
for (int v = ti v I= s; v = edgeTo[v] .other(v)) 
edgeTo[v] .addResidualFlowToCv，bottle); 


value += bottle; 


} 


public double value() { return value; } 
public boolean inCut(int v) { return marked[v]; } 


public static void main(String[] args) 

{ 
FlowNetwork G = new FlowNetwork(new In(args[0])); 
int s=0,t=GVO-1; 
FordFulkerson maxflow = new FordFulkerson(G, s, t); 


StdOut.printinC"Max flow from "+s +" to™"+t); 
for (int v = 0; v < G.VO; vt+) 
for (FlowEdge e : G.adj(v)) 
if CC == @.from()) && e.flow() > 0) 
Stdout.println(” " 
StdOut.printinC"Max flow value = ”+ maxflow.valueO)); 


+ ee; 


} 


这 段 Ford-Fulkerson 算法 的 实现 会 在 剩余 网 络 中 寻找 最 短 增 广 路 径 ， 找 出 路 径 上 的 瓶颈 容量 并 增 大 
该 路 径 上 的 流量 ， 如 此 往复 直至 不 再 存在 从 起 点 到 终点 的 增 广 路 径 为 止 。 898 
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初始 的 空 流量 网 络 对 应 的 剩余 网 络 





沿 着 路 径 0 一 1 一 3 一 5 
增加 2 个 单位 的 流量 







% java FordFulkerson tinyFN.txt 
Max flow from 0 to 5 

0->2 3, 

0->1 2. 

1->4 1. 

沿 着 路 径 0-,2-4-5 

增加 1 个 单位 的 流 最 /@ 允 

2. 

3. 
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3->5 
4->5 
Max fl 
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沿 着 路 径 0 一 2 一 3 一 1 一 4 一 5 


增加 1 个 单位 的 流 最 / 人 














899| ”图 6.0.23 最短 增 广 路 径 的 FordFulkerson 算法 的 轨迹 
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图 6.0.24 一 个 较 大 的 流量 网 络 中 的 最 短 增 广 路 径 




































































6.0.4.8 性 能 
图 6.0.24 所 示 的 是 一 个 更 大 的 例子 。 从 图 中 我 们 可 以 清晰 地 看 到 ， 增 广 路 径 的 长 度 在 慢 慢 变 长 。 
这 是 分 析 算法 性 能 的 第 一 个 要 点 。 


命题 G。 最 短 增 广 路 径 的 Ford-Fulkerson 最 大 流量 算法 在 处 理 含有 天 个 顶点 和 巨 条 边 的 流量 网 
络 时 找到 的 增 广 路 径 最 多 为 EV/2 条 。 


简略 证 明 。 每 条 增 广 路 径 中 都 含有 一 条 关键 边 一 这 条 边 在 剩余 网 络 中 会 被 删 掉 ， 因 为 它 对 应 
的 可 能 是 一 条 将 会 被 充满 的 正 向 边 或 是 将 会 被 抽 干 的 逆向 边 。 每 当 一 条 边 成 为 关键 边 时 ， 通 过 
它 的 增 广 路 径 的 长 度 就 会 加 2 (请 见 练习 6.39 ) 。 因 为 增 广 路 径 的 最 大 长 度 为 巨 目 每 条 边 最 多 
可 能 出 现在 V12 条 增 广 路 径 上 ， 因 此 增 广 路 径 的 总 数 最 多 为 EV72。 


推论 。Ford-Fulkerson 算法 的 最 短 增 广 路 径 实现 所 需 的 时 间 在 最 坏 情况 下 为 FE212。 
证 明 。 广 度 优先 搜索 最 多 会 检查 已 条 边 。 


命题 G 所 述 的 上 界 是 非常 保守 的 。 例 如 ， 图 6.0.24 中 含有 11 个 顶点 和 20 条 边 ， 该 上 界 说 明 算 
法 使 用 的 增 广 路 径 最 多 为 110 条 ， 但 实际 上 它 只 用 了 14 条 。 
6.0.4.9 其 他 实现 

Edmonds 和 Karp 发 明 的 另 一 种 Ford-Fulkerson 算法 的 实现 是 优先 处 理 能 够 将 流量 增 大 最 多 的 
增 广 路 径 。 简 单 起 见 ， 我 们 将 这 种 方法 称 为 最 大 容量 增 广 路 径 的 最 大 流量 算法 。 对 于 这 种 ( 以 及 其 
他 一 些 ) 方法 ， 可 以 通过 稍 加 修改 Dijkstra 的 最 短路 径 算法 、 由 优先 队列 得 到 剩余 容量 最 大 的 正 向 
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边 或 是 流量 最 大 的 逆向 边 来 实现 。 或 者 也 可 以 寻找 最 长 增 广 路 径 ， 或 是 随机 选择 增 广 路 径 。 要 完整 
分 析 哪 种 才 是 最 佳 的 方法 是 一 个 复杂 的 任务 ， 因 为 它们 的 运行 时 间 取决 于 : 

口 找到 最 大 流量 所 需 检查 的 增 广 路 径 数量 ; 

口 寻找 每 条 增 广 路 径 所 需 的 时 间 。 

这 些 量 的 变化 可 能 很 大 ， 和 流量 网 络 本 身 以 及 图 的 搜索 策略 有 关 。 人 们 还 发 明了 解决 最 大 流 
量 问题 的 其 他 几 种 算法 ， 其 中 一 些 在 实践 中 和 Ford-Fulkerson 算法 不 分 高 下 。 但 是 ， 为 最 大 流量 
算法 进行 数学 建 模 来 验证 这 些 猜 想 是 一 个 非常 困难 的 问题 。 各 种 最 大 流量 算法 的 分 析 仍然 是 一 个 
有 趣 而 活跃 的 研究 领域 。 从 理论 角度 来 说 ， 我 们 已 经 得 到 了 各 种 最 大 流量 算法 在 最 坏 情况 下 的 上 
界 , 但 这 些 上 界 大 多 远 远 高 于 实际 应 用 中 所 观察 到 的 真实 成 本 ,而 且 也 比较 小 的 下 界 ( 线性 级 别 ) 
高 出 许多 。 最 大 流量 问题 的 已 知 成 本 和 潜在 成 本 之 间 的 差距 比 ( 目前 ) 本 书 中 讨论 过 的 任何 问题 
都 要 大 。 

最 大 流量 算法 的 实际 应 用 仍然 既是 一 门 艺 术 也 是 一 门 科 学 。 它 的 艺术 之 处 在 于 为 特定 的 应 用 场 
景 选择 最 有 效 的 策略 ; 它 的 科学 之 处 在 于 对 问题 本 质 的 理解 。 是 否 存在 能 够 在 线性 时 间 内 解决 最 大 
流量 问题 的 新 数据 结构 和 算法 呢 ? 或 者 我 们 能 否 证 明 它们 不 存在 呢 ? 请 见 表 6.0.6。 


表 6.0.6 各 种 最 大 流量 算法 的 性 能 特点 
在 含有 V 个 项 点 和 E 条 边 的 流量 网 络 中 〈 各 边 容量 最 大 为 C) ， 











六 算法 的 运行 时 间 在 最 坏 情 况 下 的 增长 数量 级 
最 短 增 广 路 乱 的 Ford-Fulkerson 算法 rE 
最 大 容量 的 Ford-Fulkerson 算法 FlogC 
预 流 推进 算法 ( preflow-push ) EMog(E/W) 
未 知 算法 ? V+E? 
6.0.5 ”问题 归 约 


本 书 中 , 我们 一 直 注重 说 明 某 个 特定 的 问题 ， 然 后 给 出 解决 问题 的 算法 和 数据 结构 。 在 许多 情 
况 下 (以 下 列 出 了 很 多 ) ， 我 们 发 现 如 果 能 够 将 某 个 问题 转化 为 已 经 解决 的 问题 的 某 个 形式 ， 那 么 
解决 它 将 会 更 容易 。 在 研究 已 经 学 习 过 的 各 种 算法 与 形形色色 的 各 种 问题 之 间 的 关系 之 前 ， 我 们 应 
该 正式 定义 这 个 解决 问题 的 过 程 。 


定义 。 如 果 能 够 用 解决 问题 B 的 算法 得 到 一 个 解决 问题 A 的 算法 ， 则 说 问题 A 能 够 被 归 约 为 
问题 B。 


这 个 概念 在 软件 开发 中 显然 并 不 陌生 : 当 你 使 用 一 个 库 方法 解决 某 个 问题 时 ， 正 是 在 将 所 需要 
解决 的 问题 归 约 为 该 库 方法 所 解决 的 问题 。 本 书 中 ， 我 们 一 直 非 正 式 地 将 能 够 归 约 为 给 定 问题 的 其 
他 问题 称 为 应 用 。 
6.0.5.1 ”排序 问题 

我 们 在 第 2 章 第 一 次 遇 到 了 问题 的 归 约 ， 当 时 我 们 想 说 明 的 是 高 效 的 排序 算法 可 以 用 于 解决 许 
多 看 起 来 与 排序 无 关 的 其 他 问题 。 例 如 ， 在 许多 有 趣 的 问题 中 ， 我 们 研究 了 以 下 几 个 问题 。 

口 寻找 中 位 数 。 给 定 一 组 数字 的 集合 ， 找 出 中 位 数 
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口 不 重复 的 值 。 在 给 定 的 集合 中 找 出 所 有 不 同 的 值 。 
口 最 小 平均 完成 时 间 的 调度 问题 。 给 定 一 组 任务 的 集合 和 它们 的 时 耗 ， 在 一 个 处 理 器 上 应 该 如 
何 安排 调度 使 得 它们 的 平均 完成 时 间 最 小 呢 ? 


命题 H。 以 下 问题 可 以 被 归 约 为 排序 问题 : 
口 寻找 中 位 数 ; 
口 统计 不 同 的 值 ; 
口 最 小 平均 完成 时 间 的 调度 问题 。 


证 明 。 请 见 2.5.3.4 节 和 练习 2.5.12。 


我 们 还 需要 注意 归 约 的 成 本 。 例 如 ， 我 们 可 以 在 线性 时 间 内 找到 一 组 数 的 中 位 数 ， 但 是 如 果 归 
约 为 排序 问题 ， 那 就 需要 线性 对 数 级 别 的 时 间 。 即 使 是 这 样 ， 拓 外 的 成 本 或 许 还 是 可 以 接受 的 , 因 [503 
为 我 们 可 以 使 用 已 有 的 排序 实现 。 排 序 的 价值 在 于 以 下 3 个 方面 : 
口 它 有 其 自身 的 实用 性 ; 
口 我 们 的 算法 能 够 有 效 解决 排序 问题 ; 
口 许多 问题 都 能 够 归 约 为 排序 问题 。 
一 般 来 说 ， 我 们 将 具有 这 些 性 质 的 问题 称 为 问题 解决 模型 。 和 成 熟 的 库 一 样 ， 设 计 良 好 的 问题 
解决 模型 能 够 大 大 扩展 我 们 能 够 处 理 的 问题 域 。 但 是 ， 在 过 度 关注 于 问题 解决 模型 时 容易 犯 下 的 一 
个 错误 被 称 为 Maslow 的 锤子 ， 这 是 由 A.Maslow 在 20 世纪 60 年 代 提出 并 广为人知 的 一 句 话 ， 如 
果 你 有 一 把 锤子 ， 那 么 什么 东西 都 看 起 来 都 像 颗 人 钉子。 如 果 沉 迷 于 若干 问题 解决 模型 ， 我 们 就 可 能 
将 它们 当 作 Maslow 的 锤子 一 样 来 解决 遇 到 的 所 有 问题 ， 从 而 妨碍 了 发 现 解决 问题 的 更 好 方法 ， 甚 
至 是 新 的 问题 解决 模型 。 尽 管 本 书 所 讨论 的 模型 都 非常 重要 、 实 用 且 应 用 广泛 ， 但 是 考虑 各 种 其 他 
可 能 性 仍然 是 明智 的 选择 。 
6.0.5.2 ”最 短路 径 问题 
在 44 节 学 习 最 短路 径 算法 时 也 遇 到 了 问题 归 约 的 概念 .在 许多 有 趣 的 问题 中 ,我 们 研究 了 以 下 几 个 。 
口 无 向 图 中 的 单 点 最 短路 径 问题 。 给 定 一 幅 加 权 无 向 图 和 起 点 s, 其 中 所 有 权重 非 负 , 回答 “是 
否 存 在 从 s 到 给 定 目的 顶点 v 的 路 径 ?如果 有 ， 找 出 这 样 一 条 最 短路 径 (总 权重 最 小 ) 。” 
等 类 似 问题 。 

口 优先 级 限制 下 的 并 行 任务 调度 问题 。 给 定 一 组 需要 完成 的 任务 ， 以 及 一 组 关于 任务 完成 的 先 
后 次 序 的 优先 级 限制 。 在 满足 限制 条 件 的 前 提 下 应 该 如 何在 若干 相同 的 处 理 器 上 ( 数量 不 限 ) 
安排 任务 并 在 最 短 的 时 间 内 完成 所 有 任务 ? 

口 套 汇 。 在 给 定 的 汇率 表 中 找 出 一 个 套 汇 的 机 会 。 

和 刚才 一 样 ， 后 两 个 问题 看 起 来 和 最 短路 径 问题 并 没有 直接 的 关系 ， 但 最 短路 径 算法 能 够 有 效 
地 解决 它们 。 这 些 示例 问题 虽然 都 很 重要 ， 但 并 没有 什么 代表 性 。 许 多 非常 重要 的 问题 ( 太 多 了 ， 
无 法 一 一 讨论 ) 都 能 够 归 约 为 最 短路 径 问题 一 这 是 一 个 非常 有 效 而 重要 的 问题 解决 模型 。 904| 
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命题 1。 以 下 问题 能 够 归 约 为 加 权 图 中 的 最 短路 径 问 题 : 
口 非 负 权重 的 无 向 图 中 的 单 点 最 短路 径 问题 ; 
口 优先 级 限制 下 的 并 行 调度 问题 ; 
口 套 汇 问题 ; 
口 其 他 许多 问题 。 


例证 。 请 见 4.4.4.2 节 命题 R、4.4.5.2 节 框 注 “优先 级 调度 示例 问题 的 关键 路 径 方法 ”和 4.4.6.9 
节 框 注 “ 货 币 羌 换 中 的 套 汇 ”。 


6.0.5.3 ”最 大 流量 问题 
最 大 流量 问题 在 许多 情况 下 同样 非常 重要 。 我 们 可 以 去 掉 流 量 网 络 中 的 各 种 限制 并 解决 
相关 的 流量 问题 ， 也 可 以 用 它 解 决 其 他 网 络 或 者 图 的 处 理 问题 ， 甚 至 是 非 网 络 问题 。 例 如 以 
下 问题 。 
口 就 业 安置 。 大 学 里 的 就 业 指导 中 心 会 为 学 生 安排 公司 面试 。 这 些 面试 的 结果 是 一 系列 工作 机 
会 。 假 设 一 次 成 功 的 面试 表示 了 学 生 和 公司 之 间 的 相互 认可 且 学 生 将 会 接受 这 份 职位 ， 那么 
这 样 的 就 业 安置 数量 当然 是 越 多 越 好 。 有 可 能 为 每 一 位 一 份 工作 吗 ?最 多 可 能 安排 
多 少 份 工 作 ? 
口 产品 配送 。 假 设 有 一 家 只 生产 一 种 产品 的 公司 ， 它 拥有 能 够 生产 产品 的 工厂 ， 能 够 暂时 储存 
产品 的 物流 分 配 中 心 以 及 销售 商品 的 零售 直 营 店 。 公 司 需要 定期 将 产品 通过 物流 分 配 中 心 分 
发 到 各 地 的 直 营 店 ， 而 各 地 的 分 配 通道 的 配送 能 力 各 有 不 同 。 有 可 能 使 各 地 仓库 的 供应 量 与 
直 营 店 的 销售 量 相 匹配 吗 ? 
口 网 络 可 靠 性 。 一 种 简化 的 模型 可 以 将 一 个 计算 机 网 络 看 成 是 通过 交换 机 连接 所 有 电脑 的 一 组 
主干 网 ， 任 意 两 台电 脑 都 能 够 通过 交换 机 和 主干 线 相互 连接 。 切 断 某 一 对 计算 机 之 间 的 连接 
最 少 需要 切断 多 少 条 主干 线 ? 
同样 ， 这 些 问题 各 不 相关 ， 也 看 起 来 不 属于 流量 网 络 的 问题 范畴 ， 但 它们 都 可 以 被 归 约 为 最 大 
905| 流量 问题 。 









命题 J。 以 下 问题 可 以 归 约 为 最 大 流量 问题 : 
口 就 业 安置 ; 
口 产品 配送 ; 
口 网 络 可 靠 性 ; 
口 其 他 许多 问题 。 


例证 。 这 里 只 证 明 第 一 个 问题 (又 叫做 最 大 二 分 图 匹配 问题 ) ， 其 他 的 将 留 作 练习 。 我 们 可 以 
为 给 定 的 就 业 安置 问题 构造 一 个 对 应 的 最 大 流量 问题 。 图 中 的 所 有 边 均 由 学 生 指 向 公司 ， 然 后 
添加 一 个 起 点 且 对 于 每 个 学 生 都 有 一 条 从 起 点 指向 他 的 边 ， 添 加 一 个 终点 且 对 于 每 个 公司 都 有 
一 条 由 公司 指向 终点 的 边 。 图 中 的 每 条 边 的 容量 都 是 1， 请 见 图 6.0.25。 现 在 ， 这 个 网 络 中 的 最 
大 流量 问题 的 每 个 解 都 是 对 应 的 二 分 图 匹配 问题 的 的 解 ( 请 见 命题 F 的 推论 ) 。 匹 配 中 的 所 有 
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边 的 两 个 顶点 都 正好 分 别 属于 学 生 和 公司 两 个 集合 且 它 们 在 最 大 流量 配置 中 都 会 是 侈 和 的 。 首 
先 ， 网 络 流 总 是 会 给 出 一 个 合法 的 匹配 : 因为 每 个 顶点 都 既 有 一 条 流入 边 ( 来 自 于 起 点 ) 和 一 
条 流出 边 (指向 终点 ) 且 经 过 的 流量 最 多 为 1， 所 以 每 个 顶点 最 多 只 能 出 现在 一 个 匹配 中 。 其 次 ， 
匹配 不 可 能 含有 更 多 的 边 ， 因 为 任意 类 仪 的 匹配 都 意味 着 一 个 比 最 大 流量 算法 的 结果 更 好 的 流 
量 配置 。 








二 分 图 匹配 问题 匹配 ( 解 ) 
1 7 Ada , 一 
Ns 流量 网 络 的 构造 最 大 流量 配置 PS 
Amazon Bob 
Facebook Dave a 
2 Bob 8 Amazon slab 
Adobe Alice Blza 一 Google 
Amazon Bob Frank— IBM 
Yahoo Dave 
3 Carol 9 Facebook 
Facebook Alice 
Google Carol 
IBM 10 Google 
4 pm Carol 
Adobe Eliza 
Amazon 11 IBM 
5 Eliza Carol 
Google Elza 
lM Fank 
Yahoo 12 Yahoo 
6 Frank Bob 
(BM la 
Yahoo Frank 
图 6.0.25 ”将 二 分 图 匹配 问题 归 约 为 网 络 流 问题 示例 906 











例如 ， 如 图 6.0.26 所 示 ， 一 个 增 广 路 径 最 大 流量 算法 可 能 会 使 用 路 径 s 一 1 一 7 一 t、s 一 
2 一 8 一 t、5 一 3 一 9 一 t、5 一 5 一 10 一 t、s 一 6 一 11 一 t 和 5s 一 4 一 7 一 1 一 8 2 
计算 得 到 匹配 1-8、2-12、3-9、4-7 和 6-11。 因 此 ， 在 示例 中 可 以 找到 一 种 将 所 有 学 生 和 工作 相 
匹配 的 方法 。 每 条 增 广 路 径 都 会 使 一 条 由 起 点 指出 的 边 和 一 条 指向 终点 的 边 充满 。 我 们 可 以 注意 到 ， 
这 些 边 都 不 是 逆向 边 ， 因 此 最 多 只 存在 天 条 增 广 路 径 ， 总 运行 时 间 与 VE 成 正比 。 

最 短路 径 和 最 大 流量 算法 都 是 重要 的 问题 解决 模型 ， 因 为 它们 和 排序 算法 有 着 相同 的 性 质 ; 

口 它们 有 其 自身 的 实用 性 ; 

口 我 们 的 算法 能 够 有 效 解决 它们 ; 

口 许多 问题 都 能 够 归 约 为 这 些 模型 。 

这 段 简短 的 讨论 只 是 为 了 介绍 这 个 概念 。 如 果 你 能 学 习 一 门 有 关 运筹 学 的 课程 ， 就 将 会 学 到 许 
多 能 够 归 约 为 这 些 模型 的 其 他 问题 以 及 更 多 的 问题 解决 模型 。 
6.0.5.4 ”线性 规划 

运筹 学 的 基础 之 一 是 线性 规划 (Linear Programming，LP ) ， 请 见 图 6.0.27。 它 的 主要 思想 是 
将 给 定 的 问题 归 约 为 以 下 数学 形式 。 

线性 规划 。 给 定 一 个 由 M 个 线性 不 等 式 组 成 的 集合 和 含有 个 决策 变量 的 线性 等 式 ， 以 及 一 
个 由 该 Y 个 决策 变量 组 成 的 线性 目标 函数 ， 找 出 能 够 使 目标 函数 的 值 最 大 化 的 一 组 变量 值 ， 或 者 证 
明 不 存在 这 样 的 赋值 方案 。 








图 6.0.26 ”二 分 图 匹 
配 中 的 增 
广 路 径 





线性 规划 是 一 种 极为 重要 的 问 根据 约束 条 件 
题解 决 模型 ， 因 为 : ee 
口 非常 多 的 重要 问题 都 能 够 归 人 
约 为 线性 规划 问题 ; 0o<c<3 
口 我 们 的 算法 能 够 有 效 解决 线 bs 
性 规划 问题 。 pe 
在 讨论 其 他 问题 解决 模型 时 0<s<2 
的 “该 问题 有 其 自身 的 实用 性 ” et 
就 不 必 提 了 ， 因 为 能 够 归 约 为 线 Det 
性 规划 问题 的 实际 问题 实在 是 太 cte-g 
多 了 。 d+/=h 


图 6.0.27 ”线性 规划 问题 示例 


命题 K。 以 下 问题 均 可 归 约 为 线性 规划 问题 : 
口 最 大 流量 问题 ; 
口 最 短路 径 问题 ; 
口 许 多 许多 其 他 问题 。 


例证 。 我 们 只 证 明 第 一 个 问题 并 将 第 二 个 留 作 练 习 6.49。 考 虑 一 个 
由 不 等 式 和 等 式 所 组 成 的 系统 ， 其 中 每 一 个 约束 变量 都 对 应 着 一 条 
边 ， 两 个 不 等 式 也 对 应 着 一 条 边 ， 每 一 个 等 式 对 应 着 一 个 顶点 (起 
点 和 终点 除外 ) 。 约 束 变 量 的 值 就 是 边 中 的 流量 ， 不 等 式 指明 了 边 
中 的 流量 必须 在 0 和 边 的 容量 之 问 ， 而 等 式 说 明 指向 每 个 顶点 的 所 
有 边 中 的 流量 之 和 必须 和 从 该 顶点 指出 的 所 有 边 中 的 流量 之 和 相等 。 
任意 最 大 流量 问题 都 可 以 用 这 种 方式 归 约 为 一 个 线性 规划 问题 ， 而 
它 的 解 又 可 以 很 容易 地 归 约 为 最 大 流量 问题 的 解 。 图 6.0.28 给 出 了 
一 个 具体 的 示例 。 


命题 K 中 所 说 的 “许多 许多 其 他 问题 ”有 三 个 含义 。 第 一 ， 添 加 约 
束 条 件 和 扩展 线性 规划 模型 非常 简单 。 第 二 ， 问 题 的 归 约 是 有 传递 性 的 ， 
因此 能 够 归 约 为 最 短路 径 和 最 大 流量 问题 的 所 有 问题 也 能 够 归 约 为 线性 
规划 问题 。 第 三 ， 也 是 更 普遍 的 一 种 情况 ， 即 各 种 最 优化 问题 都 能 够 直 
接 构造 为 线性 规划 问题 。 事 实 上 ， 线 性 规划 这 个 词 的 意思 就 是 “将 一 个 
最 优化 问题 构造 为 一 个 线性 规划 问题 ”。 这 种 用 法 出 现在 “programming” 
这 个 词 被 用 作 计算 机 领域 的 “编程 ”之 意 之 前 。 和 非常 多 的 问题 都 可 以 
归 约 为 线性 规划 问题 同样 重要 的 是 ， 解 决 线性 规划 问题 的 高 效 算法 已 经 
发 明了 数 十 年 了 。 其 中 最 著名 的 是 G.Dantzig 在 20 世纪 40 年 代 发 明 的 
单纯 形 法 ( simplex algorithm ) 。 理 解 单纯 形 法 并 不 困难 ( 请 见 本 书 网 站 
上 对 它 的 简单 实现 ) 。 更 近 一 些 的 时 候 ，L.G.Khachian 在 1979 年 演示 了 
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椭 球 法 ( ellipsoid algorithm ) 并 推动 了 20 世纪 80 年 代 内 点 法 ( interior point methods ) 的 发 展 。 对 
于 人 们 在 现代 应 用 中 过 到 的 各 种 大 型 线性 规划 问题 ， 内 点 法 是 对 单纯 形 法 的 有 效 补充 。 现 在 ,解决 
线性 规划 问题 的 程序 都 已 经 十 分 健壮 、 久 经 考验 、 高 效 并 且 对 于 现代 公司 机 构 的 基本 运作 起 到 了 关 
键 的 作用 。 它 在 科学 领域 甚至 应 用 程序 中 的 运用 也 在 不 断 扩展 。 如 果 线性 规划 模型 能 够 表示 你 的 问 
题 ， 那 么 离 问题 的 解决 也 就 不 远 了 。 


汪 太 斥 昌 1 大 最 大 流量 问题 的 解 
6 从 顶点 0 到 顶点 5 的 最 大 流量 配置 
8 2 0-23.02.0 
01 2.0 线性 规划 问题 的 构造 。 线性 规划 0-12.02.0 
2 Dy 根据 约束 条 件 使 得 问题 的 解 1 一 41.01.0 
14 10 XastXss 最 大 化 1 一 3 3.01.0 
23 1.0 0<xol 大 2 X01=2 2 一 3101.0 
24 1.0 0<xo<3 X02=2 2 一 4101.0 
| 0 0<xos<3 x13=1 3 一 52.02.0 
0<xu<! x1=1 4—53.02.0 
0<xn<l xn=1 最 大 流量 值 ，4.0 

容量 o< es1 x24=1 

0<x3s<2 x35=2 

0 大 x4s<3 x45 2 


XO XI 
XX23t X24 
Flt X23 x3s 
4+ N24™ 4 





图 6.0.28 将 网 络 流 问 题 归 约 为 线性 规划 问题 


非常 现实 地 说 ， 线 性 规划 是 各 种 问题 解决 模型 的 鼻祖 ， 因 为 非常 多 的 问题 都 能 向 它 归 约 。 很 自 
然 ， 这 一 点 也 使 我 们 不 禁 思考 是 否 存在 比 线性 规划 问题 更 强大 的 问题 解决 模型 。 还 有 哪些 问题 无 法 
归 约 为 线性 规划 问题 ?下 面 就 是 一 个 例子 。 

负载 均衡 。 给 定 一 组 任务 和 完成 它们 的 时 间 ， 应 该 如 何在 两 个 相同 的 处 理 器 上 分 配 任务 使 得 所 
有 任务 的 总 完成 时 间 最 短 ? 

我 们 能 够 找到 一 个 更 加 一 般 的 问题 解决 模型 并 高 效 解决 它 的 实例 吗 ? 这 样 的 思考 得 到 的 结果 是 ”507 
不 可 解 性 ， 它 也 将 是 本 书 的 最 后 一 个 话题 。 909 


6.0.6 ”不可解 性 


本 书 中 讨论 的 算法 一 般 都 是 用 来 解决 实际 问题 的 ， 因 此 它们 消耗 的 资源 都 是 有 限 的 。 大 多 数 算 
法 的 实用 性 是 显而易见 的 ， 而 且 对 于 许多 问题 ， 我 们 还 很 幸运 地 能 够 在 几 种 不 同 的 算法 之 间 进 行 先 
择 。 但 不 幸 的 是 ,现实 生活 中 还 有 许多 其 他 问题 并 没有 如 此 有 效 的 解决 方法 。 更 糟糕 的 是 ， 对 于 许 
多 类 问题 ， 人 们 甚至 不 知道 是 否 存在 有 效 解决 它们 的 方法 。 这 种 情况 让 程序 员 和 算法 的 设计 者 都 极 
度 溪 丧 ， 因 为 他 们 无 法 为 许多 实际 问题 找到 有 效 的 算法 。 对 于 理论 学 者 而 言 ， 肖 丧 来 自 于 他 们 无 法 
证 明 这 些 问题 到 底 有 多 难 。 在 这 个 领域 ， 人 们 已 经 进行 了 大 量 的 研究 ， 并 发 展 出 了 一 种 方法 来 判断 
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一 个 新 问题 从 技术 的 角度 来 说 是 否 能 够 归于 “难以 解决 ”这 个 类 别 。 尽 管 这 方面 的 研究 大 多 数 都 超 
出 了 本 书 的 范畴 ,但 是 理解 它们 的 核心 思想 并 不 困难 。 我 们 将 在 这 里 介绍 它们 ， 因 为 当面 对 一 个 新 
问题 时 ， 每 个 程序 员 都 应 该 了 解 不 存在 解决 它 的 高 效 算法 的 可 能 性 。 
6.0.6.1 准备 工作 
20 世纪 最 漂亮 和 有 趣 的 智力 发 明之 一 ， 就 是 阿兰 .图 灵 在 20 世纪 30 年 代 发 明 的 “图 灵机 ”。 
它 是 一 个 简单 而 又 非常 通用 的 计算 模型 ， 足 以 描述 任意 计算 机 程序 和 设备 。 一 台 图 灵机 就 是 一 台 
够 读 取 输 入 、 变 换 状 态 和 打印 输出 的 有 限 状 态 机 。 图 灵机 是 理论 计算 机 科学 的 基础 。 它 来 自 于 下 面 
两 个 重要 的 思想 。 
口 普遍 性 。 图 灵机 可 以 模拟 所 有 物理 可 实现 的 计算 设备 。 这 被 称 为 缚 奇 - 图 灵 论 题 。 这 是 一 个 
关于 自然 世界 的 论断 且 无 法 被 证 明 ( 但 可 以 被 证 伪 ) 。 该 论题 成 立 的 证 据 就 是 数学 家 和 计算 
机 科学 家 已 经 发 明 的 无 数 种 计算 模型 ， 而 它们 都 已 证 明和 图 灵机 等 价 。 
口 可 计算 性 。 图 灵机 ( 或 是 任意 其 他 计算 设备 , 根据 普遍 性 可 以 得 到 ) 无 法 解决 的 问题 是 存在 的 。 
这 在 数学 上 是 正确 的 。 停 机 问题 (halting problem ) ( 任意 程序 都 无 法 保证 能 够 判定 给 定 程 
序 是 否 会 结束 ) 就 是 这 类 问题 中 的 一 个 著名 的 例子 。 
在 这 里 ， 我 们 感 兴趣 的 是 第 三 个 思想 ， 它 是 关于 计算 设备 效率 的 。 
口 扩展 的 丘 奇 -图 灵 论 题 。 在 任意 计算 设备 上 解决 某 个 问题 的 某 个 程序 所 需 的 运行 时 间 的 增长 
数量 级 都 是 在 图 灵机 上 ( 或 是 任意 其 他 计算 设备 上 ) 解决 该 问题 的 某 个 程序 的 多 项 式 倍数 。 
同样 ， 这 也 是 一 个 关于 自然 世界 的 论断 ， 因 为 所 有 已 知 的 计算 设备 都 能 够 通过 图 灵机 模拟 ， 只 
是 成 本 最 多 需要 增加 一 个 多 项 式 的 倍数 。 在 最 近 几 年 ， 量 子 计算 的 概念 使 得 一 些 研究 者 开始 怀疑 扩 
展 的 丘 奇 - 图 灵 论题 的 正确 性 。 大 多 数 人 都 认为 ， 从 实践 的 角度 来 说 ， 这 个 论题 还 能 支撑 一 段 时 间 ， 
但 许多 学 者 已 经 在 努力 证 明 它 是 错误 的 。 
6.0.6.2 ”指数 级 别 的 运行 时 间 
不 可 解 性 理论 的 目的 在 于 将 能 够 区 别 多 项 式 时 间 内 解决 的 问题 和 在 最 坏 情况 下 〈 可 能 ) 需要 指 
数 级 别 时 间 才 能 解决 的 问题 。 我 们 可 以 认为 指数 级 别 运行 时 间 的 算法 在 输入 规模 为 V 时 所 需 的 时 间 
(至 少 ) 和 2* 成 正比 ,将 底数 2 替换 为 任意 的 a>1 均 可 。 我 们 一 般 认为 指数 时 间 的 算法 无 法 保证 
在 合理 的 时 间 内 解决 规模 超过 ( 例如 ) 100 的 问题 ， 因 为 无 论 计 算 机 有 多 快 都 没 人 能 够 等 待 一 个 需 
要 2” 步 的 算法 。 指 数 增长 级 别 使 得 科技 进步 忽略 不 计 : 一 台 超级 计算 机 可 能 比 一 张 算盘 快 一 万 亿 倍 ， 
但 两 者 都 不 可 能 解决 需要 2” 步 才能 完成 的 问题 。 有 时 ，“ 简 单 ” 问 题 和 “困难 ”问题 之 间 只 有 一 
线 之 差 。 例 如 ，4.1 节 中 学 习 的 那个 能 够 解决 以 下 问题 的 算法 。 
最 短路 径 长 度 。 在 一 幅 图 中 从 一 个 给 定 的 顶点 s 到 另 一 个 给 定 的 顶点 t 之 间 的 最 短路 径 的 长 度 
是 多 少 ? 
但 并 没有 学 习 解决 下 面 这 个 问题 的 算法 但 两 者 看 起 来 本 质 上 似乎 是 一 样 的 。 
最 长 路 径 长 度 。 在 一 幅 图 中 从 一 个 给 定 的 顶点 s 到 另 一 个 给 定 的 顶点 上 之 间 的 最 长 路 径 的 长 度 
是 多 少 ? 
问题 的 核心 在 于 ， 据 我 们 目前 所 知 ， 从 难度 上 来 说 这 些 几乎 都 是 最 困难 的 问题 。 广 度 优先 搜索 
能 够 在 线性 时 间 内 解决 第 一 个 问题 ,但 对 于 第 二 个 问题 所 有 已 知 算法 在 最 坏 情况 下 均 需 要 指数 级 别 
的 时 间 。 前 面 框 注 的 代码 用 一 个 深度 优先 搜索 的 变种 解决 了 这 个 问题 。 它 和 深度 优先 搜索 非常 类 似 ， 
但 它 检 查 了 有 向 图 中 所 有 从 s 到 上 的 简单 路 径 才 找 到 了 最 长 的 那 一 条 。 
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public class LongestPath 


private boolean[] marked; 
private int max; 


public LongestPath(Graph G, int s, int t) 
Ls 

marked = new boolean[G.VO]; 

dfs(G, s, t, 0); 
} 
private void dfs(Graph G, int v, int t, int i) 
{ 

if (Vv == t && i > max) max = ii 

if (v == t) return; 

marked[v] = true; 

for Cint w : G.adj(v)) 

if (Imarked[w]) dfs(G, w, t, i+1); 
marked[v] = false; 


} 


public int maxLength() 
{ return max; } 


找 出 图 中 的 两 个 项 点 之 间 的 最 长 路 径 的 长 度 


6.0.6.3 ”搜索 问题 

本 书 中 已 经 介绍 过 的 “高 效 ”算法 能 够 解决 的 问题 与 还 需要 如 大 海 捞 针 一 般 在 各 种 可 能 性 中 寻 
找 解法 的 问题 之 间 存 在 巨大 差异 ， 这 就 需要 能 够 用 一 种 简单 的 形式 模型 来 研究 这 两 类 问题 之 间 的 关 
系 。 第 一 步 就 是 要 说 明 我 们 所 研究 的 这 类 问题 。 


定义 。 如 果 一 个 问题 有 解 且 验证 它 的 解 的 正确 性 所 需 的 时 间 不 会 超过 输入 规模 的 多 项 式 ， 则 称 
这 种 问题 为 搜索 问题 。 当 一 个 算法 给 出 了 一 个 解 或 是 已 证 明 解 不 存在 时 ， 就 称 它 解决 了 一 个 搜 
索 问题 。 


我 们 将 在 后 面 讨论 不 可 解 性 问题 中 4 个 比较 有 趣 的 问题 。 这 些 问题 被 为 “可 满足 性 ”问题 。 现在， 
要 证 明 某 个 问题 是 一 个 搜索 问题 ， 只 需 说 明 你 能 够 快速 验证 某 个 完整 的 解 的 正确 性 即 可 。 解 决 一 个 搜 
索 问题 就 好 像 “ 在 稻草 堆 里 寻找 一 根 针 ” 一 样 ， 你 唯一 的 优势 只 是 在 看 见 它 的 时 候 能 够 认得 出 来 。 例 
如 ， 对 于 后 面 列 出 的 每 个 可 满足 性 问题 都 给 定 了 一 组 变量 赋值 ， 你 都 能 很 容易 地 验证 每 个 等 式 或 不 等 
式 者 是 满足 的 ,但 是 寻找 这 样 一 组 变量 赋值 就 完全 不 同 了 。 我 们 常用 NP 描述 所 有 搜索 问题 一 我 
们 会 在 6.0.6.5 节 说 明 这 个 名 字 的 由 来 。 


定义 。NP 是 所 有 搜索 问题 的 集合 。 


NP 准确 描述 了 所 有 科学 家 、 工 程 师 以 及 应 用 程序 员 渴 望 的 能 够 保证 在 合理 时 间 范 围 内 解决 的 
所 有 问题 的 集合 。 912 
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部 分 搜索 问题 。 
口 线性 等 式 可 满足 性 。 给 定 一 组 由 N 个 变量 表示 的 M 个 线性 等 式 ， 找 出 一 组 满足 所 有 等 式 的 
变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
口 线性 不 等 式 可 满足 性 ( 线性 规划 问题 的 搜索 形式 ) 。 给 定 一 组 由 N 个 变量 表示 的 M 个 线性 
不 等 式 ， 找 出 一 组 满足 所 有 不 等 式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
口 0 ~ 1 整数 线性 不 等 式 可 满足 性 (0 ~ 1 整 教 线性 规划 问题 的 搜索 形式 ) 。 给 定 一 组 由 入 个 
整数 变量 表示 的 M 个 线性 不 等 式 ， 找 出 一 组 满足 所 有 不 等 式 的 变量 0 或 1 赋值 ， 或 者 证 明 
这 样 的 赋值 不 存在 。 
口 布尔 可 满足 性 。 给 定 一 组 由 入 个 布尔 变量 以 及 和 /或 运算 符 表示 的 M 个 等 式 ， 找 出 一 组 满 
足 所 有 等 式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
6.0.6.4 ”其 他 类 型 的 问题 
对 于 构成 了 不 可 解 性 研究 的 基础 的 问题 集合 ， 搜 索 问题 的 概念 是 多 种 描述 它 的 方法 之 一 。 其 他 
方法 包括 决定 性 问题 ( 解 是 否 存在 ? ) 以 及 最 优化 问题 ( 最 优 解 是 什么 ? ) 。 例 如 ，6.0.6.2 节 中 的 
最 长 路 径 长 度 问题 就 是 一 个 最 优化 问题 而 非 一 个 搜索 问题 。 ( 给 定 一 个 解 ， 无 法 验证 它 就 是 最 长 路 
径 的 长 度 。 ) 这 个 问题 的 搜索 版 本 是 找到 一 条 能 够 连接 所 有 顶点 的 简单 路 径 。 ( 该 问题 也 叫做 汉 密 
尔 顿 路 径 问题 ) 。 这 个 问题 的 决定 性 版 本 是 询问 是 否 存在 一 条 能 够 连接 所 有 顶点 的 简单 路 径 。 套 汇 
问题 、 布尔 可 满足 性 问题 和 汉密尔顿 路 径 问 题 都 是 搜索 问题 ; 询问 这 些 问题 是 否 有 解 是 决定 性 问题 
而 最 短 或 最 长 路 径 问题 、 最 大 流量 问题 和 线性 规划 问题 都 是 最 优化 问题 。 虽 然 它 们 在 技术 上 并 不 等 
价 ， 但 搜索 问题 、 决 定性 问题 和 最 优化 问题 一 般 都 能 够 相互 归 约 ( 请 见 练习 6.58 和 练习 6.59 ) 且 我 
们 的 主要 结论 同时 适用 于 这 三 种 类 型 的 问题 。 
6.0.6.5 ”简单 的 搜索 问题 
NP 的 定义 并 没有 提 到 寻找 解 的 难度 ， 而 只 是 和 解 的 验证 有 关 。 构 成 不 可 解 性 研究 的 基础 的 第 
二 类 问题 的 集合 被 称 为 P， 它 和 寻找 解 的 难度 有 关 。 在 这 个 模型 下 ， 算 法 的 效率 是 将 输入 编码 所 需 
的 比特 数量 的 函数 。 


定义 。P 是 能 够 在 多 项 式 时 间 内 解决 的 所 有 搜索 问题 的 集合 。 


这 个 定义 暗示 着 多 项 式 时 间 是 一 个 最 坏 情况 下 的 时 间 界 限 。 对 于 在 集合 P 中 的 一 个 问题 ， 必 然 
存在 一 个 算法 能 够 保证 在 多 项 式 时 间 内 解决 它 。 注 意 ， 我 们 完全 没有 指定 这 是 一 个 怎样 的 多 项 式 。 
线性 、 线 性 对 数 、 平 方 、 立 方 级 别 都 是 多 项 式 时 间 ， 因 此 这 个 定义 显然 哥 括 了 目前 已 经 学 习 的 所 有 
标准 算法 。 运 行 一 个 算法 所 需 的 时 间 取 决 于 所 使 用 的 计算 机 ， 但 扩展 的 丘 奇 - 图 灵 论 题 让 这 一 点 变 
得 无 关 紧 要 一 一 它 说 明 任意 计算 设备 上 的 多 项 式 时 间 的 解 都 意味 着 任意 其 他 计算 设备 上 也 存在 多 项 
式 时 间 的 解 。 排 序 问题 属于 P 是 因为 (例如 ) 插 人 排序 所 需 的 时 间 与 Y 成 正比 ( 在 这 里 ,线性 对 
数 时 间 的 排序 算法 并 无 意义 ) ， 最 短路 径 问 题 、 线 性 等 式 可 满足 性 问题 以 及 其 他 许多 问题 也 是 这 样 。 
一 个 能 够 有 效 解决 某 个 问题 的 算法 足以 证 明 该 问题 属于 集合 P。 换 句 话说 ，P 准确 描述 了 所 有 科学 
家 、 工 程 师 以 及 应 用 程序 员 能 够 保证 在 合理 的 时 间 范 围 内 解决 的 所 有 问题 的 集合 ， 请 见 表 6.0.7 和 
表 6.0.8。 
6.0.6.6 ” 非 确定 性 

NP 中 的 N 表示 的 是 非 确定 性 (nondeterminism ) 。 它 的 意思 是 ， 扩 展 计算 机 能 力 的 一 种 〈 理论 
上 的 ) 方 法 是 赋予 它 不 确定 性 : 即 断 言 当 一 个 算法 面 对 若 干 个 选项 时 , 它 有 能 力 “ 狂 出 ”正确 的 选择 。 
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在 我 们 的 讨论 中 ， 你 可 以 将 非 确定 性 的 计算 机 上 的 一 个 算法 看 作 是 在 “猜测 ”问题 的 解 ， 然 后 验证 
这 个 解 是 否 成 立 。 在 图 灵机 中 ， 非 确定 性 只 是 定义 为 一 个 给 定 状态 和 一 个 给 定 输入 时 的 两 个 不 同 的 
后 继 状态 ， 解 则 是 能 够 得 到 期 望 结果 的 所 有 路 径 。 非 确定 性 也 许 只 是 一 个 数学 上 的 幻想 ， 但 它 也 可 
以 是 一 种 很 有 用 的 思想 。 例 如 ， 在 5.4 节 中 ， 我 们 将 非 确定 性 用 作 了 一 种 设计 算法 的 工具 一 一 正则 
表达 式 模式 匹配 算法 的 基础 就 是 有 效 模拟 一 个 非 确定 性 自动 状态 机 。 


表 6.0.7 集合 NP 中 的 问题 举例 





问题 输 入 描 述 存在 多 项 式 时 间 算 法 实例 解 

© OO 

汉密尔顿 路 径 。 ”图 G 区 ? | ><] 0.2-1.3 

© ©) 
分 解 质 因数 整数 x 找到 x 的 最 大 因子 ? 97605257271 8784561 
可 xy<1 
1 线性 不 等 式 由 名 个 人 3! 变 。 找 出 满足 所 有 不 等 式 3 2xz<2 rl 
可 满足 性 个 不 等 式 的 变量 赋值 EE xty>2 二 
一 z>0 


集合 P 中 的 所 有 ， 
问题 请 见 表 6.0.7 





表 6.0.8 集合 P 中 的 问题 举例 











问题 输 入 描 述 存在 多 项 式 时 间 算 法 实例 
最 短 st 路径 ”图 G 找 出 从 s 到 1 的 广度 优先 搜索 (BFS) 0-3 
顶点 *、/ 最 短路 径 
排序 数组 a 将 a 按 升序 排列 归并 排序 288.54.113 3021 
线性 等 式 可 满 。 N 个 变量 找 出 满足 所 有 等 高 斯 消 元 法 Xty=1.5 x=0.5 
足 性 MM 个 等 式 式 的 变量 赋值 2r=0 1 
线性 不 等 式 可 NN 个 变量 找 出 满足 所 有 不 。 椭 球 法 ye1.5 =2.0 
满足 性 MM 个 不 等 式 ”等 式 的 变量 赋 信 2x-z<0 1.5 
xty 3.5 2-4.0 
z>40 
一 >>40 
6.0.6.7 主要 问题 


非 确定 性 十 分 强大 ， 严 肃 认真 地 考虑 它 似乎 有 点 荒唐 。 为 什么 要 花心 思 用 一 种 想象 中 的 工具 将 
困难 的 问题 变 得 看 起 来 简单 呢 ? 答案 是 ， 虽 然 非 确定 性 看 起 来 十 分 强大 ， 但 没 人 能 够 证 明 它 能 够 帮 
助 我 们 解决 任何 问题 ! 换 句 话说 , 还 没有 人 能 够 找到 任何 一 个 问题 并 证 明 它 属于 NP 而 不 属于 P ( 其 
至 证 明 存 在 这 样 一 个 问题 ) 。 这 就 留 下 了 一 个 有 待 解决 的 问题 : 

P=NP 成 立 吗 ? 

这 个 问题 是 由 K.Gedel 在 1950 年 写 给 J von Neumann 的 一 封 著名 的 信 中 第 一 次 提出 的 ， 并 且 完 < 
难 倒 了 所 有 数学 家 和 计算 机 科学 家 。 陈 述 这 个 问题 的 其 他 方式 说 明了 一 些 它 的 基本 性 质 。 

口 是否 存在 任何 难以 解决 的 搜索 问题 ? 

口 如 果 能 构造 一 种 非 确定 性 的 计算 设备 ， 能 够 更 快 地 解决 某 些 搜索 问题 吗 ? 

无 法 解答 这 些 问题 令 人 们 极度 愧 恼 , 因为 许多 重要 的 实际 问题 都 属于 NP 但 却 不 一 定 属于 P。( 已 
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知 的 最 快 确定 性 算法 需要 指数 级 别 的 时 间 。 ) 如 果 能 够 证 明 它 不 属于 P， 就 可 以 放弃 寻找 高 效率 的 
算法 。 既 然 无 法 证 明 , 那么 就 存在 发 现 某 种 高 效 算法 的 可 能 性 。 事实 上 , 就 我 们 目前 的 知识 水 平 而 言 ， 
NP 中 的 每 个 问题 都 可 能 存在 某 种 高 效 的 算法 , 这 意味 着 可 能 还 有 许多 高 效 的 算法 没有 被 人 们 发 现 。 

但 实际 上 没 人 相信 P=NP， 而 且 很 大 一 部 分 人 都 在 努力 证 明 该 等 式 不 成 立 。 它 仍然 是 计算 机 科学 领 


域 有 待 证 明 的 最 重要 的 研究 课题 。 
6.0.6.8 多项式 时 间 问 题 的 相互 归 约 


6.0.5 节 通 过 说 明 用 以 下 三 个 步骤 可 以 解决 问题 A 的 任意 实例 ,证 明了 问题 A 是 可 以 归 约 为 问 


题 B 的 : 
口 将 A 的 实例 归 约 为 B 的 实例 ; 
口 解决 B 的 实例 ; 


口 将 B 的 实例 的 解 归 约 为 A 的 实例 的 解 。 


布尔 可 满足 性 问题 


Geior 间 oraa) and 
(x1 or 鸡 oraa) and 

(GeiorxsorxS)and 

(xiorxsor) 


0-1 整 数 线性 不 等 式 可 满足 性 问题 的 构造 


ci<(1-xD)++ 妆 十 罗 


1 
0@>1-x 
> 
Qnt (I) + 


&>1- 

>1-x 

S21- 
<(1-x)+1-x+ (1-x) 


Gl- 
G>1- x 
GX 
G0)+ (+ 


“9 当 且 仅 当 所 有 c 
“se 一 变量 的 值 均 为 1 
5 入 时 s 的 值 为 1 
so 
s+OtG+tG-3 


图 6.0.29 将 布尔 可 满足 性 问题 归 约 为 0-1 整 
数 线性 不 等 式 可 满足 性 问题 的 示例 


只 要 能 够 有 效 完成 归 约 ( 并 解决 问题 B) ,我 
们 就 能 有 效 的 解决 问题 A。 在 这 里 ， 为 了 效率 我 们 
采用 了 能 够 想象 的 最 弱 的 定义 : 为 了 解决 问题 A 最 
多 需要 解决 多 项 式 个 问题 B 的 实例 ， 且 问题 归 约 最 
多 只 需 多 项 式 时 间 。 在 这 种 情况 下 ， 我 们 称 A 能 够 
在 多 项 式 时 间 内 归 约 为 B。 在 前 文中 ， 我 们 使 用 问 
题 的 归 约 介绍 了 各 种 问题 解决 模型 ， 使 得 高 效 算法 
所 能 解决 的 问题 范围 大 大 拓展 了 。 现 在 ， 我 们 要 从 
另 一 个 角度 使 用 问题 的 归 约 ， 即 用 它 来 证 明 一 个 问 
题 是 难以 解决 的 。 如 果 一 个 问题 A 已 知 是 难以 解决 
的 ， 且 A 在 多 项 式 时 间 内 能 够 归 约 为 问题 B， 那 么 
问题 B 必然 也 是 难以 解决 的 。 和 否则， 问题 B 的 一 
个 多 项 式 时 间 的 解 必 然 也 能 归 约 为 问题 A 的 一 个 多 
项 式 时 间 内 的 解 。 


命题 L。 布 尔 可 满足 性 问题 能 够 在 多 项 式 时 间 
内 归 约 为 0-1 整数 线性 不 等 式 可 满足 性 问题 。 


证 明 。 对 于 给 定 的 一 个 布尔 可 满足 性 问题 的 实例 ， 
定义 一 组 不 等 式 ， 其 中 每 个 布尔 变量 都 对 应 着 一 
个 0-1 变量 ,每 个 布尔 子 句 也 对 应 着 一 个 0-1 变 
量 ,如 图 6.0.29 所 示 。 若 布尔 变量 的 值 为 真 (true ) 
则 对 应 的 整数 变量 的 值 为 1， 值 为 假 (false) 
时 对 应 的 整数 变量 的 值 为 0。 这 样 ， 我 们 就 能 够 
将 0-1 整数 线性 不 等 式 可 满足 性 问题 的 解 归 约 为 
布尔 可 满足 性 问题 的 解 。 


推论 。 如 果 可 满足 性 问题 是 难以 解决 的 ， 那 么 整数 线性 规划 问题 也 是 难以 解决 的 。 
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即使 我 们 并 没有 精确 定义 难以 解决 ， 关 于 解决 这 两 种 问题 的 难度 关系 的 陈述 仍然 是 有 意义 的 。 
在 这 里 ，“ 难 以 解决 ”的 意思 是 “不 包含 在 集合 P 中 ”。 一 般 来 说 ,我 们 用 不 可 解 来 表示 不 包含 在 
集合 P 中 的 问题 。 以 R.Karp 在 1972 年 作出 的 开创 性 的 工作 为 起 点 ， 一 些 研究 者 已 经 通过 这 种 归 约 
的 方式 证 明了 成 百 上 千 种 各 个 应 用 领域 的 问题 都 是 相关 的 。 此 外 ， 这 种 关系 的 内 涵 远 比 两 个 单独 的 
问题 之 间 的 联系 更 丰富 ， 下 面 我 们 将 说 明 这 个 概念 。 
6.0.6.9 ”NP- 完全 性 

许多 问题 都 属于 NP 但 可 能 并 不 属于 P。 也 就 是 说 , 我 们 可 以 轻易 地 验证 任意 给 定 的 解 是 否 有 效 ， 
但 即使 投入 了 许多 努力 ， 也 未 能 开发 出 一 个 有 效 的 算法 来 寻找 问题 的 解 。 令 人 惊讶 的 是 ， 所 有 这 些 
问题 都 有 一 个 额外 的 性 质 ， 令 人 信服 地 说 明了 PANP: 


定义 。 若 NP 中 的 所 有 问题 都 能 在 多 项 式 时 间 内 归 约 为 搜索 问题 A, 那么 则 称 问题 A 是 NP- 完 全 的 。 


这 个 定义 使 得 我 们 可 以 将 “难以 解决 ”的 定义 升级 为 “除非 P=NP 否则 无 解 ”。 如 果 任 意 NP- 
完全 问题 能 够 通过 一 台 有 限 自 动机 在 多 项 式 时 间 内 解决 ， 那 么 NP 中 的 所 有 问题 都 将 得 到 解决 ( 即 
P=NP ) 。 也 就 是 说 ， 所 有 研究 者 对 于 寻找 这 些 问题 的 高 效 算法 的 失败 从 整体 上 来 说 是 证 明 P=NP 的 
失败 。NP- 完全 问题 的 意思 是 ， 我 们 不 期 望 能 够 找到 多 项 式 时 间 的 算法 。 大 多 数 实际 的 搜索 问题 都 
已 知 是 P 或 NP- 完全 问题 。 
6.0.6.10 ”Cook-Levin 定理 

通过 归 约 ， 一 个 问题 的 NP- 完全 性 也 意味 着 另 一 个 问题 的 NP- 完全 性 。 但 归 约 在 一 种 情况 下 是 
不 可 用 的 : 如 何 证 明 第 一 个 问题 是 NP- 完全 的 ? S.Cook 和 L.Levin 在 20 世纪 70 年 代 早期 分 别 独立 
地 完成 了 这 项 工作 。 





命题 M (Cook-Levin 定理 ) 。 市 尔 可 满足 性 问题 是 NP- 完全 的 。 


极 大 简化 证 明 。 目 标 是 证 明 如 果 布尔 可 满足 性 问题 存在 多 项 式 时 间 的 算法 ， 那 么 NP 集合 中 的 
所 有 问题 都 能 在 多 项 式 时 间 内 解决 。 非 确定 型 图 灵机 是 可 以 解决 NP 中 的 任意 问题 的 ， 因 此 证 
明 的 第 一 步 是 用 与 布尔 可 满足 性 问题 中 一 样 的 逻辑 表达 式 描述 非 确定 型 图 灵机 的 所 有 特性 。 这 
可 以 将 NP 中 的 每 个 问题 《它们 都 可 以 表示 为 非 确定 型 图 灵机 上 的 一 个 程序 ) 和 可 满足 性 问题 
的 某 个 实例 ( 该 程序 的 还 辑 表达 式 形式 ) 联系 起 来 。 这 样 ， 可 满足 性 问题 的 解 未 质 上 等 价 于 模 
拟 图 灵机 在 给 定 的 输入 下 运行 给 定 的 程序 ， 因 此 它 将 产生 给 定 问题 的 某 个 实例 的 解 。 这 份 证 明 
的 其 他 细节 已 经 远 远 超 出 了 本 书 的 范畴 。 幸 运 的 是 ， 我 们 只 需要 证 明 这 一 个 命题 即 可 ; 使 用 归 
约 来 证 明 NP- 完全 性 要 简单 的 多 。 


Cook-Levin 定理 ， 再 加 围绕 各 种 NP- 完全 问题 所 进行 的 成 千 上 万 次 多 项 式 时 间 内 的 归 约 ， 使 我 
们 得 到 了 两 种 可 能 性 : 或 者 P=NP， 即 不 存在 任何 不 可 解 的 搜索 问题 ( 所 有 搜索 问题 都 能 够 在 多 项 
式 时 间 内 得 到 解决 ) ; 或 者 P 关 NP， 即 存在 不 可 解 的 搜索 问题 ( 某 些 搜索 问题 无 法 在 多 项 式 时 间 
内 得 到 解决 ) ， 请 见 图 6.0.30。NP- 完全 问题 在 实际 应 用 中 经 常 出 现 ， 因 此 人 们 找 出 解决 它们 的 优 
秀 算法 的 意愿 非常 强烈 。 所 有 这 些 问题 目前 都 还 未 找到 有 效 的 算法 显然 强烈 说 明了 P 关 NP， 大 多 
数 研究 者 也 相信 这 一 点 。 但 从 另 一 方面 来 说 ， 也 没 人 能 够 证 明 这 些 问题 中 的 任意 一 个 不 属于 P， 这 
也 同样 是 反方 向 的 一 个 有 力 证 据 。 无 论 P=NP 是 否 成 立 ， 目 前 的 实际 状态 是 所 有 NP- 完全 问题 的 已 
知 最 佳 算法 在 最 坏 情况 下 都 需要 指数 级 别 的 时 间 。 
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6.0.6.11 ”问题 的 分 类 pa=ip 
要 证 明 一 个 搜索 问题 存在 于 集合 P 中 ,我们 需要 展示 一 个 解决 它 
的 多 项 式 时 间 算法 ， 这 或 许可 以 通过 将 它 归 约 为 一 个 已 知 P 类 问题 。 
要 证 明 NP 中 的 一 个 问题 是 NP- 完全 的 ， 我 们 需要 证 明 某 个 已 知 的 
NP- 完全 问题 能 够 在 多 项 式 时 间 内 归 约 为 它 : 也 就 是 说 ， 如 果 一 个 新 
问题 的 多 项 式 时 间 的 算法 能 够 用 于 解决 NP- 完全 问题 ， 那 么 它 也 就 能 P = NP 
解决 NP 中 的 所 有 问题 。 我 们 已 经 用 这 种 方法 证 明了 成 千 上 万 的 问题 NP 


都 是 NP- 完全 问题 ， 就 像 在 命题 L 中 对 整数 线性 规划 问题 进行 的 转 CC) 
换 那样 。 后 面 列 出 了 一 些 有 代表 性 的 问题 ， 它 包含 了 Karp 提出 的 车 


干 问 题 ,但 这 只 是 已 知 的 NP- 完全 问题 中 极 小 的 一 部 分 。 将 新 问题 归 
入 容易 解决 ( 属于 集合 P ) 或 者 难以 解决 (NP- 完全 ) 的 类 别 可 能 会 


出 现 以 下 几 种 情况 。 图 6030 问题 集 的 两 种 
口 显而易见 。 例 如 ， 著 名 的 高 斯 消 元 法 就 能 够 证 明 线性 等 式 可 可 能 情况 
满足 性 问题 属于 集合 P。 
口 需要 一 些 技巧 但 并 不 国难 。 例 如 ， 给 出 一 份 类 似 于 命题 L 的 证 明 需 要 一 些 经 验 和 实践 ， 但 
理解 并 不 困难 。 
口 非常 有 挑战 性 。 例 如 ， 线 性 规划 问题 曾经 长 期 分 类 不 明 ， 但 Khachian 的 椭 球 法 证 明了 线性 规 
划 问题 属于 集合 P。 


口 有 待 解决 。 例 如 ， 图 的 同 构 问题 ( 给 定 两 幅 图 ， 给 出 一 种 能 够 使 得 两 幅 图 相同 的 顶点 重 命名 
方案 ) 和 分 解 质 因数 问题 ( 给 定 一 个 整数 ， 找 出 它 的 最 大 因数 ) 仍然 是 无 解 的 。 
目前 这 仍然 是 一 块 内 容 丰富 、 研 究 活跃 的 领域 ， 每 年 都 会 产生 数 千 篇 论 文 。 从 后 面 项 目 列 出 的 
最 后 几 个 条 目 可 以 看 出 ， 它 涉及 了 科学 界 的 各 个 领域 。 我 们 在 NP 的 定义 中 包含 了 科学 家 、 工 程 师 
和 应 用 程序 员 所 渴望 解决 的 所 有 问题 一 一 这 些 问题 显然 需要 分 类 ! 
一 些 著名 的 NP- 完全 问题 。 
口 布尔 可 满足 性 。 给 定 一 组 由 N 个 布尔 变量 表示 的 M 个 等 式 ， 找 出 一 组 满足 所 有 等 式 的 变量 
赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
口 整数 线性 规划 。 给 定 一 组 由 N 个 整数 变量 表示 的 MM 个 线性 不 等 式 ， 找 出 一 组 满足 所 有 不 等 
式 的 变量 赋值 ， 或 者 证 明 这 样 的 赋值 不 存在 。 
口 负载 均衡 。 给 定 一 组 任务 和 完成 它们 的 时 间 以 及 一 个 时 间 上 限 7， 应 该 如 何在 两 个 相同 的 处 
理 器 上 分 配 任务 以 在 时 间 了 之 内 完成 所 有 任务 ? 
口 顶点 覆盖 。 给 定 一 幅 图 和 一 个 整数 C， 找 出 一 个 含有 C 个 顶点 的 集合 ， 保 证 图 中 的 每 条 边 
都 至 少 依附 于 集合 中 的 一 个 顶点 。 
口 汉密尔顿 路 径 。 给 定 一 幅 图 ， 找 出 一 条 正好 只 经 过 每 个 顶点 一 次 的 简单 路 径 ,或 者 证 明 这 种 


路 径 不 存在 。 

口 蛋白 质 折 登 。 给 定 能 量 级 别 M， 找 出 一 种 蛋白 质 的 某 种 三 维 折 芋 结构 ， 其 含有 的 潜在 能 量 
小 于 M。 

口 伊 辛 模型 。 给 定 一 个 三 维 晶 格 伊 辛 模型 和 一 个 能 量 阔 值 E， 是 否 存在 一 个 自由 能 小 于 EE 的 
子 图 ? 


口 给 定 收益 的 风险 投资 组 合 。 给 定 一 组 风险 投资 渠道 与 一 个 总 成 本 以 及 一 个 给 定 收益 。 每 项 投 
资 都 有 一 定 的 风险 值 ， 风 险 的 总 阔 值 为 M。 找 到 一 种 分 配 投资 的 方法 使 得 总 风险 小 于 M。 
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6.0.6.12 处理 NP- 完全 性 

在 实践 中 ,我 们 必须 为 这 些 各 种 各 样 的 问题 找到 某 种 解决 办 法 ， 因 此 人 们 对 解决 这 些 问题 非常 
感 兴趣 。 我 们 不 可 能 在 这 一 小 段 文 字 中 说 明 这 个 庞大 的 研究 领域 ， 但 我 们 可 以 简要 描述 一 下 人 们 已 
经 尝试 过 的 各 种 手段 。 一 种 方法 是 ,修改 问题 并 寻找 一 种 “近似 ”算法 来 给 出 接近 但 并 非 最 佳 的 解 。 
例如 ， 欧 几 里 德 旅行 销售 员 问 题 ( traveling salesman problem ) ， 我 们 很 容易 找到 一 个 长 度 小 于 最 优 
路 线 的 两 倍 的 解 。 但 不 幸 的 是 ， 在 寻找 更 好 的 近似 时 ， 这 种 方法 并 不 足以 绕 开 NP- 完全 性 。 第 二 种 
方法 是 ， 给 出 一 种 能 够 有 效 解决 实际 应 用 中 所 出 现 的 问题 的 实例 算法 ， 但 对 于 最 坏 情况 下 的 输入 ， 
这 种 算法 仍然 是 无 法 找到 问题 的 解 。 这 种 方法 最 著名 的 例子 是 解决 整数 线性 规划 问题 的 程序 ， 它 们 
是 数 十 年 来 解决 无 数 工业 应 用 中 的 大 量 最 优化 问题 的 主力 军 。 尽 管 它们 有 可 能 需要 指数 级 别 的 时 间 ， 
但 实际 应 用 中 的 输入 数据 也 显然 不 是 最 坏 情况 下 的 输入 。 第 三 种 方法 是 ， 使 用 一 种 叫做 “回溯 法 ” 
的 技术 来 避免 检查 所 有 可 能 的 解 ， 以 期 找到 尽 可 能 “高 效 ”的 指数 级 别 算法 。 最 后 ， 计 算 机 科学 的 
理论 并 没有 提 到 多 项 式 时 间 和 指数 时 间 之 间 的 一 个 相当 大 的 空 档 。 存 在 运行 时 间 与 New 以 及 2 成 
正比 的 算法 吗 ? 

NP- 完全 性 触及 了 本 书 中 我 们 所 研究 过 的 所 有 应 用 领域 : NP- 完全 问题 会 出 现在 初级 的 编程 问 
题 、 排 序 和 查找 、 图 处 理 、 字 符 串 处 理 、 科 学 计算 、 系 统 编程 、 运 筹 学 以 及 所 有 能 够 想到 的 需要 计 
算 的 地 方 。NP- 完全 性 理论 对 实际 生产 最 重要 的 贡献 在 于 它 给 出 了 一 种 方法 来 鉴别 来 自 于 这 些 广泛 
领域 的 一 个 新 问题 是 “容易 ”还 是 “困难 ” 呢 。 如 果 有 人 找到 了 一 种 解决 新 间 题 的 有 效 方 法 ， 那 么 
它 显然 就 没什么 难度 了 。 如 果 找 不 到 ， 那 么 要 是 能 够 证 明 该 问题 是 NP- 完全 的 ， 这 就 说 明 找到 一 个 
高 效 算法 基本 上 是 不 可 能 的 。 ( 因此 或 许 应 该 尝试 男 一 种 思路 。 ) 本 书 中 已 经 研究 过 的 所 有 高 效 算 
法 说 明 我 们 已 经 学 习 了 自 欧 拉 以 来 的 多 种 高 效 的 计算 方法 但 NP- 完全 性 理论 也 说 明 事实 上 人 们 还 
有 很 长 的 路 要 走 。 


图 练习 ;碰撞 模拟 


6.1 根据 正文 完成 predictCo11isions() 和 Particle 的 实现 。 决 定 一 对 刚性 球体 进行 弹性 碰撞 后 的 
运动 状态 需要 3 个 公式 : (a) 动量 守恒 ，(b) 动能 守恒 ，(c) 碰撞 时 ， 相 互 作用 力 和 碰撞 点 的 切面 垂直 
(假设 没有 摩擦 力 和 自 旋 ) 。 更 多 细节 请 见 本 书 的 网 站 。 

6.2 开发 一 个 版 本 的 Co11isionsystem、Particle 和 Event 类 ， 使 之 能 够 处 理 多 个 粒子 的 相互 碰撞 。 
在 模拟 台球 比赛 的 开 球 时 这 是 非常 重要 的 。 ( 这 道 习 题 很 难 ! ) 

6.3 ”开发 一 个 三 维 版 本 的 Co11isionSystem、Particle 和 Event 类 。 

6.4 ”尝试 将 大 片区 域 分 割 为 长 方形 的 小 格 ， 并 在 一 种 新 的 事件 类 型 中 仅 预 测 某 个 粒子 在 某 一 时 刻 和 相 邻 
的 9 个 方 格 中 的 所 有 粒子 的 碰撞 。 用 这 种 方法 改进 Co11isionSystem 的 simulate() 方法 的 性 能 。 
这 种 方法 减少 了 需要 计算 的 预测 碰撞 数量 ， 代 价 是 需要 监视 所 有 粒子 在 方 格 之 间 的 运动 。 

6.5 在 CollisionSystem 中 引信 坑 的 概念 并 用 它 验证 ( 信息 论 中 的 ) 经 典 结论 。 

6.6 布朗 运动 。1827 年 ,植物 学 家 罗伯特 布朗 在 用 显微镜 观察 到 浸 和 人 水 中 的 野生 花粉 颗粒 时 ， 发 现 它 
们 在 进行 无 规则 的 运动 。 这 种 运动 后 来 被 称 为 布朗 运动 。 人 们 讨论 了 这 种 现象 ， 但 没 人 能 够 给 出 令 
人 信服 的 解释 ， 直 到 爱 因 斯 坦 在 1905 年 在 数学 上 说 明了 这 个 问题 。 爱 因 斯 坦 的 解释 是 : 花粉 颗粒 
的 运动 是 由 无 数 微小 的 分 子 和 花粉 粒子 相 撞 造 成 的 。 请 用 模拟 来 说 明 这 个 现象 。 

6.7 温度 。 为 Particle 类 添加 一 个 temperature() 方法 ， 返 回 粒子 的 质量 和 速度 的 平方 除 以 dks 的 商 
之 积 ， 其 中 室 间 维 数 d=2，Bo1tzmann 常数 =1.3806503 x 102。 系 统 的 温度 是 所 有 粒子 的 这 些 量 
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的 平均 值 。 为 Co11isionSystem 添加 一 个 temperature() 方法 ,周期 性 采集 温度 数据 并 绘 成 图 表 ， 
检查 温度 是 否 恒定 。 
Maxwell-Boltzmann。 刚 性 球体 模型 中 的 所 有 粒子 的 速度 分 布 遵循 Maxwell-Boltzmann 分 布 ( 假设 系 
统 已 经 被 加 热 且 粒子 的 质量 足以 忽略 量子 力学 效应 ) ， 在 二 维系 统 中 又 被 称 为 Rayleigh 分 布 。 分 布 
的 形状 取决 于 温度 。 编 写 一 个 方法 计算 粒子 速度 的 直方 图 并 在 各 种 温度 下 测试 它 。 
任意 形状 。 分 子 的 移动 速度 非常 快 (超过 喷气 式 飞机 ) 但 扩散 却 很 慢 ， 因 为 它们 会 互相 碰撞 并 因此 
改变 方向 。 扩 展 模型 ， 将 两 个 容器 用 一 根 管道 相连 ， 容 器 中 分 别 含 有 两 种 不 同类 型 的 粒子 。 模 拟 粒 
子 的 运动 并 以 时 间 的 函数 测量 每 个 容器 中 每 种 类 型 的 粒子 的 比例 。 

回 退 。 在 某 次 模拟 结束 后 ， 将 所 有 速度 变 为 相反 的 方向 并 继续 模拟 系统 中 的 运动 ， 它 应 该 能 够 同 
到 最 初 的 状态 ! 测量 系统 的 最 终 状 态 和 初始 状态 的 差异 来 估计 四 舍 五 人 造成 的 误差 。 

压强 。 为 Particle 类 添加 一 个 pressure() 方法 来 测量 大 量 粒子 和 墙 体 碰撞 造成 的 压强 。 系 统 的 
压强 为 所 有 粒子 的 冲击 力 之 和 。 为 Co11isionSystem 类 添加 一 个 pressure() 方法 并 编写 一 个 用 
例 验证 等 式 pv=nRT。 

基于 索引 优先 队列 的 实现 。 开 发 一 个 版 本 的 Co11isionSystem， 使 用 索引 优先 队列 来 保证 优先 队 
列 的 长 度 最 多 与 粒子 数量 呈 线 性 关系 ( 而 非 平方 级 别 或 者 更 糟 ) 。 

优先 队列 的 性 能 。 使 用 优先 队列 ， 在 多 种 温度 下 测试 Pressure 类 来 定位 计算 的 瓶颈 。 如 果 可 以 ， 
尝试 切换 到 另 一 种 不 同 的 优先 队列 实现 ， 在 高 温 下 获取 更 好 的 性 能 。 


| | 练习 : B- 树 
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假设 在 一 棵 三 层 树 中 ， 总 共 可 以 在 内 存 中 保存 a 条 链接 。 每 个 页 中 可 以 保存 b ~ 2b 条 指向 内 部 结 
点 的 链接 和 c ~ 2c 条 指向 外 部 结 点 中 的 链接 。 在 这 样 一 棵 树 中 最 多 可 以 含有 多 少 个 项 (作为 a、b、 
< 的 函数 ) ? 

开发 一 个 Page 的 实现 ， 将 B- 树 的 结 点 表示 为 一 个 BinarySearchST 类 的 对 象 。 

扩展 BTreeSET 来 实现 能 够 关联 键 和 值 的 BTreeST 类 ， 并 完整 支持 有 序 符号 表 API， 包括 min() 、 
max() 、floor()、ceiling() 、deleteMin() 、deleteMax() 、select() 、rank() 方法 以 及 接受 
两 个 参数 的 size() 和 get 0) 方法 。 

编写 一 个 程序 ,使 用 StdDraw 将 B- 树 的 生长 过 程 可 视 化 ， 如 同 正文 描述 的 方式 一 样 。 

在 一 个 有 缓存 的 典型 系统 中 ， 估 计 对 B- 树 的 S 次 随机 查找 中 ， 每 次 查找 的 平均 探查 次 数 。 缓 存 可 
以 将 7 了 个 最 近 访 问 的 页 保存 在 内 存 中 ( 因此 无 需 探查 ) 。 假设 3 远大 于 7。 

网 络 搜索 。 开 发 一 个 Page 类 的 实现 ， 为 了 索引 网 页 ， 用 B- 树 的 结 点 表示 网 页 中 的 文本 。 用 一 个 
文件 表示 搜索 的 关键 字 。 从 标准 输入 接受 被 索引 的 网 页 。 为 了 控制 规模 ， 接 受命 令 行 参数 几 并 
将 内 部 结 点 的 数量 限制 在 10" 内 。 ( 在 使 用 较 大 的 m 前 请 联系 系统 管理 员 。) 使 用 一 个 m 位 的 
数字 来 表示 内 部 结 点 。 例 如 ， 当 m 为 4 时 ， 结 点 名 可 以 是 BTreeNode0000、BTreeNode0001、 
BTreeNode0002 等 。 在 页 中 保存 成 对 的 字符 串 。 向 API 中 添加 一 个 closeQ 操作 来 排序 并 写 入 数 
据 。 为 了 测试 实现 ， 尝 试 在 你 的 学 校 的 网 站 上 搜索 你 和 朋友 的 名 字 。 

B*- 树 。 在 B- 树 中 启发 式 地 分 裂 兄弟 结 点 : 当 某 个 结 点 含有 M 个 条 目 并 需要 分 裂 时 ， 将 它 和 它 
的 一 个 兄弟 结 点 合并 。 如 果 该 兄弟 结 点 只 含有 大 个 条 目 且 k<Mf-1， 可 以 重新 分 配 并 使 得 两 者 都 只 
含有 (M+h) /2 个 条 目 。 和 否则, 我 们 创建 一 个 新 结 点 并 使 3 个 结 点 中 都 只 含有 2M/3 个 条 目 。 同 时 ， 
我 们 允许 根 结 点 保存 4M13 个 条 目 ， 并 在 它 饱 和 时 将 它 分 裂 并 创建 一 个 只 含有 两 个 条 目的 新 根 结 
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点 。 找 出 在 含有 N 个 元 素 的 M 阶 B*- 树 中 每 次 查找 或 插入 所 需 的 探查 数 的 上 下 界限 。 将 你 的 结 
果 和 B- 树 的 相应 上 下 界 ( 请 见 命题 B ) 进行 比较 。 实 现 B* 树 中 的 插入 操作 。 924 
6.21 编写 一 段 程序 ， 计 算 在 次 随机 插入 所 构造 的 一 棵 M 阶 B- 树 中 外 部 页 的 平均 数量 。 用 合理 的 M 
和 人 值 运行 你 的 程序 。 
6.22 如果 你 的 系统 支持 虚拟 内 存 ， 设 计 并 用 实验 比较 B- 树 和 二 分 查找 在 一 张 庞大 的 符号 表 中 的 随机 查 
找 性 能 。 
6.23 ”对 于 你 为 练习 6.15 给 出 的 保存 在 内 存 中 的 Page 的 实现 ， 用 实验 确定 能 够 使 B- 树 在 一 张 庞大 的 符 
号 表 中 的 使 随机 查找 操作 速度 最 快 的 M 值 。 特 别 注意 M 为 100 的 倍数 的 情况 。 
6.24 ”运行 实验 比较 保存 在 内 存 中 的 B- 树 ( 使 用 练习 6.23 中 确定 的 M 值 ) 、 线 性 探测 散 列 法 和 红 黑 树 
在 一 张 庞大 的 符号 表 中 的 随机 查找 用 时 。 925 


























图 练习 : 后 缀 数组 


6.25 按照 图 6.0.15 的 样式 给 出 由 以 下 字符 串 的 后 级 、 后 组 的 排序 、index() 和 1cp() 方法 的 返回 值 组 
成 的 表格 。 
a. abacadaba 
b.mississippi 
c.abcdefghij 
d. aaaaaaaaaa 
6.26 下 面 这 段 代码 用 于 计算 字符 串 的 所 有 后 组 ， 找 出 其 中 的 问题 。 
Suffix = ""; 
for (int i = s.lengthO - 1; 1 >= 0; 1--) 
; suffix = s.charAt(i) + suffix; 
suffixes[i] = suffix; 


} 
答 : 它 需 要 平方 级 别 的 时 间 和 空间 。 
6.27 有 些 应 用 需要 对 文本 进行 回环 变 位 ， 这 个 操作 会 涉及 文本 中 的 所 有 字符 。 对 于 0 到 N-1 之 间 的 i， 
长 度 为 W 的 文本 的 第 i 次 回环 变 位 得 到 的 是 它 的 后 N-i 个 字符 和 前 ;个 字符 相连 所 得 的 字符 串 。 
下 面 这 段 代码 用 于 计算 文本 的 所 有 回环 变 位 ， 找 出 其 中 的 问题 。 
int N = s.lengthO); 
for (int 1 = 0; i < Ni i++) 
rotation[i] = s.substring(i,. N) + s.substring(0, i); 
它 需 要 平方 级 别 的 时 间 和 空间 。 
6.28 设计 一 个 线性 时 间 的 算法 来 计算 给 定 文本 字符 串 的 所 有 回环 变 位 。 
答 : 
Stringt =s+Ss; 
int N = s.lengthO; 
for (int 1 = 0; i < Ni i++) 
rotation[i] = r.substring(i, i + N); 926| 
“6.29 按照 1.4 节 中 的 假设 ,给 出 一 个 长 度 为 的 字符 串 SuffixArray 对 象 对 内 存 的 使 用 情况 。 
6.30 最 长 公共 子 字符 囊 。 编 写 一 个 SuffixArray 的 用 例 LCS， 接 受 两 个 文件 名 作为 命令 行 参数 ， 读 取 
这 两 个 文本 文件 并 在 线性 时 间 内 找 出 同时 出 现在 两 个 文件 中 的 最 长 子 字符 串 。( 在 1970 年 , D.Knuth 














608 > 第 6 章 背 景 


6.31 


6.32 


6.33 


6.34 


6.35 





927 











猜测 这 是 不 可 能 的 。 ) 提示 : 为 字符 串 s#t 创建 后 组 数组 ， 其 中 s 和 上 是 文本 字符 串 ， 而 # 是 一 
个 两 者 都 不 包含 的 字符 ) 。 

Burrow-Wheeler 变换 。Burrow-Wheeler 变换 ( BWT ) 是 一 种 用 于 数据 压缩 算法 中 的 变换 ， 包 括 
bzip2 和 高 春 叶 量 的 基因 组 测序 等 。 编 写 一 个 SuffixArray 的 用 例 用 以 下 方法 在 线性 时 间 内 计 
算 BWT。 给 定 一 个 长 度 为 NN 的 字符 串 ( 以 一 个 文件 结束 符 $ 结尾， 它 小 于 其 他 任意 字符 ) 。 
使 用 一 个 NxN 的 矩阵 ， 其 中 每 一 行 均 为 原文 的 一 个 不 同 的 回环 变 位 。 按 照 字典 顺序 将 所 有 行 
排序 。Burrow-Wheeler 变换 就 是 排序 后 的 矩阵 中 最 右 侧 的 列 。 例 如 ，mississippig 的 BWT 
是 ipssm$pissii。Burrow-Wheeler 逆 变 换 是 BWT 的 逆序 。 例 如 ，ipssmS$pissii 的 BWI 是 
mississippi$。 编 写 一 个 用 例 ， 在 线性 时 间 内 ， 为 某 个 字符 串 的 BWT 计算 它 的 BWI。 

环形 字符 囊 的 线性 化 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 ， 在 线性 时 间 内 找 出 它 
的 字典 序列 最 小 的 回环 变 位 。 这 个 问题 来 源 于 化 学 数据 库 中 的 各 种 环形 分 子 ， 每 一 种 分 子 都 表示 
为 一 个 环形 的 字符 串 。 人 们 需要 一 种 标准 的 表示 方法 最 小 的 回环 变 位 ) 使 得 用 字符 串 的 任意 回 
环 变 位 作为 键 都 能 找到 该 分 子 。 ( 请 见 练习 6.27 和 练习 6.28。 ) 

重复 上 次 的 最 长 子 字符 事 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 和 一 个 整数 k， 找 
出 其 中 被 至 少 重复 了 k 次 的 最 长 子 字符 串 

较 长 的 重复 字符 冲 。 编 写 一 个 SuffixArray 的 用 例 ， 对 于 给 定 的 字符 串 和 一 个 整数 L， 找 出 长 度 
至 少 为 上 的 重复 子 字符 串 。 

k-gram 频率 统计 。 开 发 并 实现 一 个 抽象 数据 类 型 ， 对 字符 囊 进行 预 处 理 以 支持 高 效 回答 如 下 形式 
的 问题 “给 定 的 kgram 出 现 了 多 少 次 ?” 每 次 查询 在 最 坏 情况 下 所 需 的 时 间 应 该 与 dogN 成 正比 ， 
其 中 N 为 字符 串 的 长 度 。 








图 练习 ， 最 大 流 问 是 
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在 含有 上 个 顶点 和 巨 条 边 的 任意 sf- 流量 网 络 中 ， 如 果 所 有 边 的 容量 都 是 小 于 M 的 正 整数 ， 可 能 
的 最 大 流量 值 是 多 少 ? 为 存在 和 不 存在 平行 边 的 情况 分 别 给 出 答案 。 

如 果 原 流量 网 络 在 删 去 终点 时 将 变 成 一 棵 树 , 给 出 一 个 算法 解决 这 种 流量 网 络 中 的 最 大 流量 问题 。 
真 假 判 断 。 如 果 为 真 ， 给 出 简短 的 证 明 ; 如 果 为 假 ， 给 出 一 个 反例 。 

任意 最 大 流 配置 中 均 不 存在 所 有 边 的 正 流 均 为 正 的 有 向 环 。 

b. 存在 一 种 不 包含 所 有 边 的 流量 均 为 正 的 有 向 环 的 最 大 流 配置 。 

c. 如 果 所 有 边 的 容量 均 不 同 ， 那么 最 大 流量 配置 是 唯一 的 。 

d. 如 果 所 有 边 的 容量 是 一 个 等 差 数 列 ， 那 么 最 小 切 分 是 唯一 的 remains unchanged ) 。 

e. 如 果 所 有 边 的 容量 是 一 个 等 比 数列 ， 那 么 最 小 切 分 是 唯一 的 。 

完成 命题 G 的 证 明 。 说 明 为 何 每 当 一 条 边 成 为 关键 边 时 ， 经 过 它 的 增 广 路 径 的 长 度 必然 会 加 2。 
在 互联 网 上 找 出 一 个 大 型 网 络 , 使 用 真实 数据 测试 最 大 流 算法 。 你 可 以 选择 交通 运输 网 络 ( 公路 、 
铁路 或 者 航空 ) 、 通 信 网 络 ( 电话 或 者 计算 机 网 络 ) 或 者 物流 配送 网 络 。 如 果 边 的 容量 不 明 ， 根 
据 一 个 合理 的 模型 自己 添加 这 些 数据 。 编 写 一 个 程序 使 用 我 们 学 过 的 接口 根据 你 的 数据 实现 流量 
网 络 的 配置 。 如 有 需要 ， 编 写 一 个 私有 方法 清理 数据 。 

编写 一 个 随机 网 络 生成 器 来 生成 稀 朴 网 络 ， 其 中 边 的 容量 为 0 到 2” 之 间 的 整数 。 用 一 个 单独 的 类 
表示 容量 并 开发 两 种 实现 : 一 种 生成 均匀 分 布 的 容量 值 ， 一 种 根据 高 斯 分 布 生成 容量 值 。 实 现 一 
个 用 例 ， 对 于 一 组 精心 选择 的 疡 和 巨 值 用 两 种 分 布 方法 生成 随机 网 络 ， 这 样 你 就 可 以 使 用 它们 进 
行 各 种 测试 了 。 
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编写 一 个 程序 ， 在 平面 上 随机 生成 /个 点 。 构 造 流量 网 络 时 ， 对 于 每 个 点 都 将 它 和 距离 4 以 内 的 
所 有 点 相互 连接 ， 用 练习 6.42 中 的 随机 模型 设置 每 条 边 的 容量 。 

简单 的 归 约 。 编 写 FordFulkerson 的 用 例 ， 在 以 下 类 型 的 流量 网 络 中 寻找 最 大 流 配 置 。 

口 管道 没有 方向 。 

口 起 点 和 终点 的 数量 不 限 ， 也 不 限制 指向 起 点 或 是 由 终点 指出 的 边 的 数量 。 

口 容量 有 下 限 。 

口 项 点 有 流量 限制 。 

产品 分 发 。 假 设 流量 表示 城市 之 间 用 卡车 运送 的 产品 ， 边 u-v 上 的 流量 表示 某 一 天 从 u 市 运送 到 
Y 市 的 产品 数量 。 编 写 一 个 用 例 , 为 卡车 司机 打印 出 每 天 的 订单 ,告诉 他 们 应 该 去 哪个 城市 上 多 少 货 ， 
然后 去 哪个 城市 印 多 少 货 。 假 设 卡车 司机 的 数量 无 限 多 且 对 于 任意 一 个 分 发 点 ， 所 有 货物 全 部 收 
到 了 之 后 才 会 开始 发 货 。 

就 业 安置 。 开 发 一 个 FordFu1kerson 的 用 例 ， 根 据 命题 ] 中 的 归 约 解决 就 业 安置 问题 。 使 用 一 张 
符号 表 将 名 字 变 为 数字 并 用 于 流量 网 络 中 。 

构造 一 系列 的 二 分 图 匹配 问题 ， 其 中 任意 增 广 路 径 算法 解决 对 应 的 最 大 流 问题 所 使 用 的 所 有 增 广 
路 径 的 平均 长 度 与 已 成 正比 。 

站 连通 性 。 开 发 一 个 FordFu1kerson 的 用 例 ， 对 于 给 定 的 无 向 图 G 和 顶点 s 和 +， 找 出 在 G 中 使 
+ 和 s 不 连通 所 需 切 断 的 最 小 边 数 。 





不 同 的 路 径 。 开 发 一 个 FordFu1kerson 的 用 例 ， 对 于 给 定 的 无 向 图 G 和 顶点 s 和 1， 找 出 从 s 到 


最 多 有 多 少 条 任意 边 均 不 相同 的 路 径 。 


图 练习 ， 问 题 的 归 约 与 不 可 解 性 
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找到 37 703 491 的 最 大 因数 。 

证 明 最 短路 径 问题 可 以 归 约 为 线性 规划 问题 。 

如 果 P z NP， 是 否 存在 能 够 在 Ne 时 间 内 解决 某 个 NP- 完全 问题 的 算法 ? 解释 你 的 回答 。 
假设 某 人 发 明了 一 种 保证 能 够 在 与 1.1* 成 正比 的 时 间 内 解决 布尔 可 满足 性 问题 的 算法 。 这 说 明 我 
们 能 够 在 与 L.1 成 正比 的 时 间 内 解决 其 他 NP- 完全 问题 吗 ? 

一 个 能 够 在 与 1.1" 成 正比 的 时 间 内 解决 整数 线性 规划 问题 的 程序 的 意义 是 什么 ? 

给 出 一 个 从 项 点 覆盖 问题 向 0-1 整数 线性 不 等 式 可 满足 性 问题 的 多 项 式 时 间 的 归 约 。 

使 用 无 向 图 中 的 汉密尔顿 路 径 问题 的 NP- 完全 性 证 明 在 有 向 图 中 寻找 汉密尔顿 路 径 的 问题 也 是 
NP- 完全 的 。 

假设 两 个 问题 都 已 知 是 NP- 完全 的 ， 这 说 明 能 够 在 多 项 式 时 间 内 将 两 者 相互 归 约 吗 ? 

假设 问题 是 NP- 完全 的 ,X 能 够 在 多 项 式 时 间 内 归 约 为 问题 7, 而且 Y 也 能 在 多 项 式 时 间 内 归 
约 为 六 ,那么 7 一 定 是 NP- 完全 的 吗 ? 

答 : 不 ,因为 了 不 一 定 属于 NP。 

假设 我 们 有 一 个 能 够 解决 布尔 可 满足 性 问题 的 确定 性 版 本 的 算法 ， 这 说 明 存在 某 种 变量 赋值 能 够 
满足 所 有 的 布尔 表达 式 。 说 明 如 何 找到 这 种 赋值 方案 。 

假设 我 人 有 一 个 能 够 解决 顶点 著 盖 问题 的 确定 性 版 本 的 算法 ， 这 说 明 对 于 某 个 给 定 的 大 小 存在 顶 
点 覆盖 的 方案 。 说 明 如 何 解决 最 小 顶点 蓝 羡 问题 的 最 优化 版 本 。 
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530| 6.60 ”解释 为 何 项 点 覆盖 问题 的 最 优化 版 本 不 一 定 是 一 个 搜索 问题 。 

答 : 因为 并 没有 很 好 的 方法 来 验证 给 定 的 节 是 否 是 最 优 的 。 ( 尽管 我 们 可 以 用 二 分 查找 在 这 个 问 
题 的 搜索 版 本 上 找到 最 优 解 。 ) 

6.61 ”假设 问题 X 和 问题 了 均 为 搜索 问题 ， 且 六 能 够 在 多 项 式 时 间 内 归 约 为 Y。 我 们 可 以 得 到 以 下 哪些 
结论 。 
a. 如 果 了 是 NP- 完全 的 ， 那 么 不 也 是 。 
b. 如 果 元 是 NP- 完全 的 ， 那 么 了 也 是 。 
c. 如 果 X 属 于 P， 那 么 7 也 属于 P。 
d 如果 Y 属 于 P， 那么 XX 也 属于 P。 

6.62 假设 P 关 NP， 我 们 可 以 得 到 以 下 哪些 结论 。 
a. 如 果 问 题 世 是 NP- 完全 的 ， 那么 无 法 在 多 项 式 时 间 内 得 到 解决 。 
b. 如 果 问 题 X 属 于 NP， 那 么 六 无 法 在 多 项 式 时 间 内 得 到 解决 。 
c. 如 果 问 题 半 属于 NP 但 并 不 是 NP- 完全 的 ， 那 么 万 可 以 在 多 项 式 时 间 内 得 到 解决 。 

















931 d 如 果 问 题 二 属于 P， 那 么 六 就 不 是 NP- 完全 的 。 
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DirectedDFS, 570 StdRandom, 30 
DirectedEdge, 641 StdStats, 30 
Draw, 83 Stopwatch, 175 
Edge, 608 StringSET, 754 
EdgeweightedDigraph, 641 StringST, 730 
EdgeWeightedGraph, 608 SuffixArray, 879 
FixedCapacityStack, 135 SymbolDigraph，581 
FixedCapacityStackOfStrings, 133 SymbolGraph, 548 
FlowEdge, 890 Topological, 578 
FlowNetwork, 890 Transaction, 79 
GeneralizedQueue, 169 TransitiveClosure, 592 
Graph，522 UF, 219 
Graphproperties, 559 VisualAccumulator, 95 
In, 41,83 Application programming interface. See also APls ( 应 用 程 
IndexMaxPQ，320 序 接口 。 见 API) 
IndexMinpQ, 320 client 用例) ，28 
IntervallD, 77 contract ( 契约 ) ，33 
Interval2D, 77 data type definition ( 数据 类 型 定义 ) ，65 
java. lang.Double, 34 implementation ( 实现 ) ，28 
java. lang. Integer, 34 library of static methods ( 静态 方法 库 ) ，28 
java. lang.Math, 28 Arbitrage detection ( 套 汇 检测 ) ，679-681 
java. lang. String, 80 Arithmetic expression evaluation ( 算术 表达 式 求 值 ) ， 


java.util.Arrays, 29 128-131 


Array (数组 ) ，18-21 
2-dimensional ( 二 维 数组 ) ，19 
aliasing (别名) ，19 
as object (数组 对 象 ) ，72 
bounds checking ( 边界 检查 ) ，19 
memory usage of ( 内 存 使 用 ) ，202 
of objects ( 数组 对 象 ) ，72 
ragged ( 参差 不 齐 ) ，19 
Array resizing. See Resizing array ( 调整 数组 大 小 ， 见 可 调 
整 大 小 的 数组 ) 
Arrays.sort(), 29, 306 
Articulation point ( 关节 点 ) ，562 
ASCIIencoding ( ASCII 编码 ) ，696, 815 
Assertion (断言 ) 7 
assert statement ( 断言 语句 ) ，107 
Assignment statement ( 赋值 语句 ) ，14 
Associative array ( 关联 数组 ) ，363 
Augmenting path ( 增 广 路 径 ) ，891 
Autoboxing ( 自动 装 箱 ) ，122, 214 
AVLtree (AVL 树 ) ，452 






Backtracking ( 回溯 法 ) ，921 
Bag data type ( 背包 数据 类 型 ) ，124, 154-156 
Balanced search tree ( 平衡 查找 树 ) ，424-457 
2-3 search tree ( 2-3 查找 树 ) ，424-431 
AVLtree (AVL 树 ) ，452 
B-tree (B- 树 ) ，866-874 
red-black BST ( 红 黑 二 叉 查 找 树 ) ，432-447 
Base case ( 最 简单 的 情况 ) ，25 
Bellman-Ford ( Bellman-Ford 算法 ) ，671-678 
Bellman, R., 683 
Bentley, J., 298, 306 
BFS. See Breadth-first search ( BFS, 见 Breadth-first search ) 
Biconnectivity ( 双向 连通 性 ) ，562 
Big-Oh notation ( 大 O 记 法 ) ，206-207 
Big-Omega notation ( 大 Omega 记 法 ) ，207 
Big-Theta notation ( 大 Theta 记 法 ) ，207 
Binary data ( 二 进 制 数据 ) ，811-815 
Binary dump ( 二 进 制 转 储 ) ，813-814 
Binary heap ( 二 又 堆 ) ，313-322 
amortized analysis of ( 二 叉 堆 的 均 摊 分 析 ) ，320 
analysis of ( 分 析 二 叉 堆 ) ，319 
change priority (改变 优先 级 ) ，321 
definition ( 二 叉 堆 的 定义 ) ，314 
deletion (删除 ) ，321 
heapsort ( 堆 排序 ) ，323-327 


insertion ( 插 和 元素 ) ，317 
Temove the maximum ( 删除 最 大 元 素 ) ，317 
Temove the minimum ( 删除 最 小 元 素 ) ，321 
representation ( 二 叉 堆 表示 法 ) ，313 
sink and swim ( 下 沉 和 上 浮 ) ，315-316 
Binary logarithm function ( 以 2 为 底 的 对 数 函数 ) ，185 
Binary search ( 二 分 查找 ) ，8 
analysis of ( 二 分 查找 的 分 析 ) ，383, 391 
bitonic search ( 双 调查 找 ) ，210 
fora fraction ( 分 数 的 二 分 查找 ) ，211 
in a sorted array ( 在 有 序数 组 中 进行 二 分 查找 ) ， 
46-47, 98-99 
local minimum ( 数组 的 局 部 最 小 元 素 ) ，210 
symbol table ( 数组 符号 表 ) ，378-384 
Binary search tree ( 二 叉 查找 树 ) ，396-423 
analysis of ( 二 又 查找 树 的 分 析 ) ，403 
anatomy of ( 详解 二 又 查找 树 ) ，396 
AVLtree (AVL 树 ) ，452 
certification (认证 ) ， 
definition ( 二 叉 查 找 树 的 定义 ) ，396 
delete the min/max ( 删除 最 大 键 和 删除 最 小 键 ) ，408 
floor and ceiling ( 向 上 取 整 和 向 下 取 整 函数 ) ，406 
height ( 树 的 高 度 ) ，412 
Hibbard deletion ( Hibbard 删除 方法 ) ，410, 422 
insertion ( 插入 ) ，400-401 
minimum and maximunmi ( 最 大 键 和 最 小 键 ) ，406 
nonrecursive ( 非 递归 ) ，417 
perfectly balanced ( 完美 平衡 的 ) ，403 
range query ( 范围 查找 ) ，412 
rank and select ( 排名 和 选择 ) ，415 
recursion (递归 ) ,415 
representation ( 数据 表示 ) ，397 
rotation (旋转 ) ，433-434 
search ( 查找) ，397-401 
selection and rank ( 选择 和 排名 ) ，406, 408 
symmetric order ( 二 叉 树 的 对 称 性 ) ，410 
threading ( 线性 符号 表 ) ，420 
BinaryStdIn library (BinarystdIn 库 ) ，811-815 
BinaryStdOut library (BinaryStdOut 库 ) ，811-815 
Binary tree ( 二叉树 ) 
anatomy of ( 详解 二 叉 树 ) ，396 
binary heap ( 二 叉 堆 ) ，313 
complete ( 实现) ，313, 314 
external path length ( 外 部 路 径 总 长 度 ) ，418 
heap-ordered ( 堆 有 序 ) ，313 
height ( 完全 二 又 树 的 高 度 ) ，314 
inorder traversal ( 中 序 遍 历 ) ，412 
internal path length ( 内 部 路 径 长 度 ) ，412 
level-order traversal ( 按 层 遍 历 ) ，420 
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preorder traversal ( 前 序 遍 历 ) ，834 

weighted extemal path length ( 加 权 外 部 路 径 长 度 ) ，832 
Binomial coefficient ( 二 项 式 系数 ) ，185 
Binomial distribution ( 二 项 分 布 ) ，59, 466 
Binomial tree (二 项 树 ) ，237 
Bipartite graph ( 二 分 图 ) ，521, 546-547 
Birthday problem ( 生日 问题 ) ，215 
Bitmap ( 位 图 ) ，822 
Bitonic array ( 双 调 数组 ) ，210 
Bitonic search ( 双 调查 找 ) ，210 
Bitonic shortest paths ( 双 调 最 短路 径 ) ，689 
Blacklist filter ( 黑 名 单 过 滤 ) ，491 
Boemer's theorem ( Boemer 定理 ) ，357 
boolean primitive data type ( 布尔 型 原始 数据 类 型 ) ，12 
Boolean satisfiability ( 布尔 可 满足 性 ) ，913, 920 
Boruvka, 0.，628 
Boruvka's algorithm ( Boruvka 算法 ) ，629, 636 
Bottleneck shortest paths ( 瓶颈 最 短路 径 ) ，690 
Bottom-up 2-3-4 tree ( 自 底 向 上 的 2-3-4 罕 ) ，451 
Bottom-up mergesort ( 自 底 向 上 的 合并 排序 ) ，277 
Boyer-Moore ( Boyer-Moore 算法 ) ，770-773 
Boyer R. S., 759 
Breadth-first search ( 广度 优先 搜索 ) 

in a digraph ( 在 有 向 图 中 ) ，573 

ina graph ( 在 图 中 ) ，538-542 
break statement ( break 语句 ) ，15 
Bridge in a graph ( 连通 图 中 的 桥 ) ，562 
B-tree ( B- 树 ) ，448, 866-874 

analysis of ( B- 树 分 析 ) ，871 

insertion ( 插 人 ) ，868 

perfect balance ( 完美 平衡 ) ，868 

search ( 搜索 ) ，868 
Buffer data type ( 缓冲 区 数据 类 型 ) ，170 
Byte (8 bits) ( 字 节 (1 字 节 等 于 8 比特 ) ) ，200 
byte primitive data type ( byte 原 书 数据 类 型 ) ，13 


C 


Cache (缓存 ) ，195, 307, 327, 343, 394, 419, 423 
Call a method ( 调用 方法 ) ，22 
Callback ( 回调 ) ，339. See also Interface ( 另 见 接口 ) 
Cast ( 类 型 转换 ) ，13, 328, 346 
Catenable queue ( 可 连接 的 队列 ) ，171 
Ceiling function ( 向 上 取 整 函数 ) 
binary search tree ( 二 叉 查 找 树 ) ，406 
mathematical function ( 数学 函数 ) ，185 
ordered array ( 有 序数 组 ) ，380 
symboltable ( 符号 表 ) ，367 


Cell-probe model ( cell-probe 模型 ) ，234 
Center of a graph ( 图 的 中 点 ) ，559 
Certification ( 认证 ) 
binary heap (二 又 堆 ) ，330 
binary search ( 二 分 查找 ) ，392 
binary search tree ( 二 叉 查找 树 ) ，419 
minimum spanning tree ( 最 小 生成 树 ) ，634 
NP complexity class ( NP 复杂 性 类 ) ，912 
red-black BST ( 红 黑 二 又 查找 树 ) ，452 
search problem ( 搜索 问题 ) ，912 
shortest paths ( 最 短路 径 ) ，651 
sorting ( 排序 ) ，246, 265 
char primitive data type ( char 原始 数据 类 型 ) ，12, 696 
Chazelle, B., 629, 853 
Chebyshev's inequality ( Chebyshev 不 等 式 ) ，303 
Church-Turing thesis ( 丘 奇 - 图 灵 论 题 ) ，910 
Circular linked list ( 环形 链表 ) ，165 
Circular queue ( 环形 队列 ) ，169 
Cireular rotation ( 回环 变 位 ) ，114 
Classpath ( 类 路 径 ) ，66 
Client (用 例 ) ，28 
Closest pair ( 最 接近 的 一 对 ) ，210 
Collections (集合 ) ，120 
bag (背包 ) ，124-125 
catenable ( 可 连接 的 ) ，171 
deque (出 列 ) ，167 
generalized queue ( 一 般 队 列 ) ，169 
priority queue ( 优先 队列 ) ，308-334 
pushdown stack ( 下 压 栈 ) ，127 
queue (队列 ) ，126 
random bag ( 随机 背包 ) ，167 
random queue ( 随机 队列 ) ，168 
ring buffer ( 环形 缓冲 区 ) ，169 
stack ( 栈 ) ，127 
steque，167 
symbol table ( 符号 表 ) ，360-513 
trie (单词 查找 树 ) ，730-757 
Collision resolution ( 处 理 碰撞 冲突 ) ，458 
Combinatorial search ( 组 合 搜索 ) ，350 
Command-line argument ( 命令 行 参数 ) ，36 
Command-line interface ( 命令 行 接口 ) 
command-line argument ( 命令 行 参数 ) ，36 
compile a Java program ( 编译 Java 程序 ) ，10 
piping (管道 ) ，40 
redirection ( 重 定向 ) ,40 
run a Java program ( 运行 Java 程序 ) ，10 
standard input ( 标准 输入 ) ，39 
standard output ( 标准 输出 ) ，37-38 
terminal window (终端 窗口 ) ，36 








Comma-separated-value ( 逗号 分 隔 的 值 ) ，493 
Comparable interface ( Comparable 接口 ) 
compareTo() method ( compareToO 方法 ) ，246-247 
Date, 247 
natural order ( 自然 排序 ) ，337 
sorting ( 排序) ，244, 246-247 
String, 353 
symbol table ( 符号 表 ) ，368-369 
Transaction, 266 
Comparator interface ( Comparator 接口 ) ，338-340 
compare() method, 338-339 
priority queue ( 优先 队列 ) ，340 
Transaction, 339 
compare() method ( compare() 方法 ) 
See Comparator interface ( 见 Comparator 接口 ) 
compareTo() method ( compareTo() 方法 ) 
See Comparable interface ( 见 Comparable 接口 ) 
Compile a program ( 编译 程序 ) ，10 
Compiler ( 编译 器 ) ，492, 498 
Complete binary tree ( 完全 二 又 树 ) ，314 
Complete graph ( 完全 有 向 图 ) ，681 
Compression. See Data compression ( 压缩 ， 见 数据 压缩 ) 
Computability ( 可 计算 性 ) ，910 
Computational complexity ( 计算 复杂 性 ) 
Cook-Levin theorem ( Cook-Levin 定理 ) ，918 
Intractability ( 不 可 解 性 ) ，910-921 
NP-complete ( NP- 完全 ) ，917-918 
NP, 912 
Pp, 914 
P= NP question, 916 
poly-time reduction ( 多 项 式 时 间 问 题 的 相互 归 约 ) , 
916-917 
sorting (排序 ) ，279-282 
Computational geometry ( 计算 几何 学 ) ，76 
Concatenation of strings (字符 申 连 接 ) ，34 
Concordance ( 对 照 索引 ) ，510 
Concrete type ( 具体 类 型 ) ，122, 134 
Conditional statement ( 条 件 语句 ) ，15 
Connected components ( 连通 分 量 ) 
Computing ( 计算) ，543-546 
Defined (定义 ) ，519 
union-find( union-find 算法 ).，217 
Connected graph ( 连通 图 ) ，519 
Connectivity ( 连通 性 ) 
articulation point ( 关节 点 ) ，562 
biconnectivity( 双向 连通 性 ) ，562 
bridge ( 桥 ) ，562 
components ( 分量) ，543-546 
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dynamic ( 动态 的 ) ，216 
edge-connected graph ( 边 连通 图 ) ，562 
strong connectivity ( 强 连通 性 ) ，584-591 
undirected graph ( 无 向 图 ) ，530 
union-find ( union-find 算法 ) ，216-241 
Constant running time ( 常数 级 别 的 运行 时 间 ) ，186 
Constructor ( 构造 函数 ) ，65, 84-85 
continue statement ( continue 语句 ) ，15 
Contract ( 契约 ) ，33 
Cook-Levin theorem ( Cook-Levin 定理 ) ，918 
Cook, S., 759, 918 
Cost model ( 成 本 模型 ) ，182 
array accesses ( 数组 的 访问 次 数 ) ，182, 220, 369 
binary search ( 二 分 查找 ) ，184 
B-tree (B- 树 ) ，866 
compares ( 比较 ) ，369 
equality tests ( 等 价 性 测试 ) ，369 
scarching ( 查找 ) ，369 
sorting (排序 ) ，246 
symbol table ( 符号 表 ) ，369 
3-sum ( 3-sum 问题 ) ，182 
union-fnd ( union-find 算法 ) ，220 
Coupon collector problem ( 优惠 券 收集 问题 ) ，215 
Covariant arrays ( 共 变 数组 ) ，158 
CPM. See Critical-path method ( CPM， 见 最 短路 径 算 法 ) 
Clanguage (C 语言 ) ，104 
C++ language ( C++ 语言 ) ，104 
Critical edge ( 关键 边 ) ，633, 690, 900 
Critical path ( 关键 路 径 ) ，663 
Critical-path method ( 关键 路 径 法 ) ，663, 664 
Crossing edge ( 横 切 边 ) ，606 
Cubic running time ( 立方 级 别 的 运行 时 间 ) ，186 
Cuckoo hashing ( Cuckoo 散 列 两 数 ) ，484 
Cut ( 切 分 ) ，606 
See also Mincut problem ( 男 见 Mincut problem ) 
capacity of ( 容量 ) ，892 
optimality conditions ( 最 优 条 件 ) ，634 
property for MST ( 最 小 生成 树 定理 ) ，606 
st-eut ( st- 切 分 ) ，892 
Cycle ( 环 ) 
Eulerian ( 欧 拉 ) ，562, 598 
Hamiltonian ( 汉密尔顿) ，562 
iadigraph (在 有 向 图 中 ) ，567 
ina graph (在 图 中 ) ，519 
odd length ( 奇数 长 度 ) ，562 
simple (简单 ) ，519, 567 
Cycle detection ( 检测 环 ) ，546-547 
Cyclic rotation of a string ( 字符 串 的 回环 变 位 ) ，784 
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DAG. See Directed acyclic graph ( DAG, 见 Directed acyclic 


graph ) 

Dangling else ( 无 主 的 else) ，52 

Dantzig, G., 909 

Data abstraction ( 数据 抽象 ) ，64-119 

Data compression ( 数据 压缩 ) ，810-851 
fixed-length code ( 定 长 编码 ) ，819-821 
Huffiman ( 替 夫 曼 ) ，826-838 
lossless ( 无损) ，811 
lossy( 有 损 ) ，811 
LZW algorithm ( LZW 压缩 算法 ) ，839-845 
prefix-free code ( 前 织 码 ) ，826-827 
run-length encoding ( 游程 编码 ) ，822-825 
2-bit genomics code ( 双 位 基因 编码 ) ，819-821 
undecidability ( 不 可 判定 性 ) ，817 
uniquely decodable code ( 唯一 解码 ) ，826 
universal ( 通用 ) ，816 
variable-length code ( 变 长 码 ) ，826 

Data structure ( 数据 结构 ) 
adjacency lists ( 邻接 表 ) ，525 
adjacency matrix ( 邻接 矩阵 ) ，524 
binary heap ( 二 又 堆 ) ，313 
binary search tree ( 二 又 查找 树 ) ，396 
binary tree (二 又 树 ) ，396 
cireular linked list ( 环形 链表 ) ，165 
doubly-linked list ( 双向 链表 ) ，146 
linked list (链表 ) ，142-146 
multiway trie ( 多 路 单词 查找 树 ) ，732 
ordered array ( 有 序数 组 ) ，312 
ordered list ( 有 序列 表 ) ，312 
parallel arrays ( 平行 的 数组 ) ，378 
parent-link ( 父 链接 ) ，225 
resizing array ( 调整 数组 的 大 小 ) ，136 
temnary search trie ( 三 向 单词 查找 树 ) ，746 
unordered array ( 无 序数 组 ) ，310 
unordered list ( 无 序列 表 ) ，312 

Data type (数据 类 型 ) 
abstract ( 抽象 数据 类 型 ) ，64 
design of ( 抽象 数据 类 型 的 设计 ) ，96-97 
encapsulation ( 抽象 数据 类 型 的 封装 ) ，96 

Date data type ( 日 期 数据 类 型 ) ，78-79 


compareTo() method ( compareTo() 方法 ) ，247 


equals() method ( equals 0 方法 ) ，103 

implementation (实现 ) ，91 

toString() method ( roString() 方法 ) ，103 
Decision problem ( 决定 性 问题 ) ，913 
Declaration statement ( 声明 语句 ) ，14 


Dedup ( dedup 过 滤器 ) ，490 
Default initialization ( 默认 初始 化 ) ，18, 86 
Defensive copy ( 保护 性 复制 ) ，112 
Degree of a vertex ( 顶点 度数 ) ，519 
Degrees of separation ( 间隔 的 度数 ) ，553-554 
Denial-of-service attacks ( 拒绝 服务 攻击 ) ，197 
Dense graph ( 稠密 图 ) ，520 
Deprecated method ( 弃 用 的 方法 ) ，113 
Depth-first search ( 深度 优先 搜索 ) ，530-534 
bipartiteness ( 二 分 图 ) ，547 
connected components ( 连通 分 量 ) ，543 
cycle detection ( 检测 环 ) ，547 
directed cycle ( 有 向 环 ) ，574-581 
longest path ( 最 长 路 径 ) ，912 
maze exploration( 探索 迷宫 ) ，530 
path finding ( 寻找 路 径 ) ，535-537 
reachability ( 可 达 性 ) ，570-573 
strong components ( 强 连通 分 量 ) ，584-591 
topological order ( 拓扑 排序 ) ，574-581 
transitive closure ( 传递 闭 包 ) ，592 
Tremaux exploration ( Tremaux 搜索 ) ，530 
2-colorability ( 双色 ) ，547 
union-find ( union-find 算法 ) ，546 
Depth of a node ( 节点 的 深度 ) ，226 
Deque data type ( 双向 队列 数据 类 型 ) ，167, 212 
Design by contract ( 契约 式 设计 ) ，107 


Deterministic finitestate automaton ( 有 限 状 态 自动 机 ) ，764 


Devroye, L., 412 


DFA. See Deterministic finite state automaton ( DFA， 见 Detr- 


ministic finite-state automaton ) 
Diameter of a graph ( 图 的 直径 ) ，559, 685 


Dictionary (字典 ) ，361. See also Symbol table ( 男 见 Symbol 


table ) 


Digraph. See Directed graph ( 有 向 图 ， 见 Directed graph ) 


Digraph data type ( 有 向 图 的 数据 类 型 ) ，568-569 
Dijkstra, E. W., 128, 298, 628, 682 


Dijkstra's 2-stack algorithm ( Dijkstra 双 栈 算法 ) ，128-131 


Dijkstra's algorithm ( Dijkstra 算法 ) ，652-657 
bidirectional search ( 双向 搜索 ) ，690 
negative weights ( 负 权重 ) ，668 

Directed acyclic graph ( 有 向 无 环 图 ) ，574-583 
depth-first orders ( 深度 优先 次 序 ) ，578 
edge-weighted (加 权 ) ，658-667 
Hamiltonian path ( 哈密 顿 路 径 ) ，598 
lowest common ancestor ( 最 近 共同 祖先 ) ，598 
shortest ancestral path ( 最 短 先导 路 径 ) ，598 


topological order ( 拓扑 排序 ) ，575 
topological sort ( 拓扑 排序 ) ，575 
Directed cycle ( 有 向 环 ) ，567 
Directed cycle detection ( 有 向 环 检测 ) 576 
Directed edge ( 有 向 边 ) ，566 
Directed graph ( 有 向 图 ) ，566-603 
See also Edge-weighted digraph ( 另 见 Edge-weighted 
digraph ) 
acyclic ( 无 环 ) ，574-583 
adjacency-lists representation ( 邻接 表 表 示 ) ，568， 
568-569 
all-pairs reachability ( 顶点 对 的 可 达 性 ) ，590 
anatomy of ( 详解 ) ，567 
breadth-first search ( 广度 优先 搜索 ) ，573 
cycle ( 环 ) ，567 
cycle detection ( 检测 环 ) ，576 
defined ( 定义 ) ，566 
directed paths ( 有 向 路 径 ) ，573 
edge ( 边 ) ，566 
Euler cycle ( Euler 环 ) ,598 
indegree and outdegree ( 入 度 和 出 度 ) ，566 
Kosaraju's algorithm ( Kosaraju 算法 ) ，586-590 
path (路 径 ) ，567 
postorder traversal ( 后 序 遍 历 ) ，578 
preorder traversal ( 前 序 遍 历 ) ，578 
reachability ( 可 达 性 ) ，570-572 
reachable vertex ( 可 达 顶 点 ) ，567 
reverse ( 取 反 ) ，568 
Teverse postorder ( 道 后 序 ) ，578 
shortest ancestral path ( 最 短 先导 路 径 ) ，598 
shortest directed paths ( 最 短 有 向 路 径 ) ，573 
simple ( 简单 ) ，567 
strong component ( 强 连通 分 量 ) ，584 
strong connectivity ( 强 连通 性 ) ，584-591 
strongly-connected ( 强 连通 ) ，584 
topological order ( 拓 补 排序 ) ，575-583 
transitive closure ( 传递 闭 包 ) ，592 
Directed path ( 有 向 路 径 ) ，567 
Disjoint set union. See Union find ( 不 相交 集合 并 ， 见 Union 
find ) 
Divide-and-conquer paradigm ( 分 治 思想 的 典型 应 用 ) 
mergesort ( 合并 排序 ) ，270 
quicksort ( 快速 排序 ) ，288, 293 
Division by zero ( 除 零 异 常 ) ，51 
Documentation (文档 ) ，28 
Double hashing ( 二 次 散 列 ) ，483 
double primitive data type( double 原始 数据 类 型 ) ，12 
Double probing ( 二 次 探测 ) ，483 
Doubling ratio experiment ( 倍率 实验 ) ，192 





Doubling test ( 双 售 测试) ，176-177 
Doubly-linked list ( 双向 链表 ) ，146 
Draw data type ( Draw 数据 类 型 ) ，82, 83 
Dump ( 转 储 ) ，813 
Duplicate keys ( 重复 元 素 ) 
3-way quicksort ( 三 向 切 分 的 快速 排序 ) ，301 
hash table ( 散 列表 ) ，488 
in a symbol table ( 符号 表 中 的 重复 元 素 ) ，363 
MSD string sort ( 高 位 优先 的 字符 串 排序 ) ，715 
priority queue ( 优先 队列 ) ，309 
quicksort ( 快速 排序 ) ，292 
sorting (排序 ) ，344 
stability ( 稳定 性 ) ，341 
Dutch National Flag ( 荷兰 国旗 问题 ) ，298 
Dynamic connectivity ( 动态 连通 性 ) ，216 
Dynamic memory allocation ( 动态 内 存 分 配 ) ，104 
Dynamic resizing array.See Resizing array ( 动态 调整 数 
组 大 小 ， 见 Resizing array ) 
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Eeeentricity of a vertex ( 顶点 的 离心 率 ) ，559 
Edge ( 边 ) 

backward ( 逆向 ) ，891 

critical (关键) ，633, 900 

erossing ( 横 切 ) ，606 

dara type ( 数据 类 型 ) ，608 

directed ( 有 向 ) ，566, 638 

eligible ( 有 效 的 ) ，646 

forward ( 正 向 ) ，891 

incident ( 依附 于 ) ，519 

ineligible ( 无 效 的 ) ，616, 646 

parallel (平行 ) ，518 

self-loop ( 自 环 ) ，518 

undirected (无 向 ) ，518 

weighted ( 加 权 ) ，608, 638 
Edge-connected graph ( 边 连 通 的 图 ) ，562 
Edge relaxation ( 边 放 松 ) ，646-647 
Edge-weighted DAG ( 加 权 有 向 图 ) ，658-667 

critical path method ( 关键 路 径 法 ) ，663-667 

longest paths ( 最 长 路 径 ) ，661 

shortest paths ( 最 短路 径 ) ，658-660 
Edge-weighted digraph ( 加 权 有 向 图 ) 

adjacency-lists ( 邻接 表 ) ，644 

complete ( 完全 ) ，679 

data type ( 数据 类 型 ) ，641 

diameter of ( 直径 ) ，685 

shortest paths ( 最 短路 径 ) ，638-693 
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Edge-weighted graph ( 加 权 无 向 图 ) 
adjacency-lists ( 邻接 表 ) ，609 
data type ( 数据 类 型 ) ，608 
min spanning forest ( 最 小 生成 森林 ) ，605 
min spanning tree ( 最 小 生成 树 ) ，604-637 
Edmonds, J., 901 
Eligible edge ( 有 效 边 ) ，616, 646 
Ellipsoid algorithm ( 椭 球 法 ) ，909 
Empty string epsilon ( 空 字符 串 e ) ，789, 805 
Encapsulation ( 封装 ) ，96 
Entropy ( 精 ) ，300-301 
Epsilon-transition ( 6- 转换 ) ，795 
Equalkeys See Duplicate keys ( 等 值 键 ， 见 Duplicate keys ) 
equals() method (equalsQ 方法) ，102-103 
symbol table ( 符号 表 ) ，365 
Equivalence class ( 等 价 类 ) ，216 
Equivalence relation ( 等 价 性 ) 
connectivity ( 连通 性 ) ，216, 543 
equals() method ( equals() 方法 ) ，102 
strong connectivity ( 强 连通 性 ) ，584 
Erd6s number ( Erd6s 数 ) ，554 
Erdss,P，554 
Erd6s-Renyi model ( Erd6s-Renyi 模型 ) ，239 
Error. See also Exception ( 错误 ， 另 见 异常 ) 
OutOfMemoryError, 107 
StackOverflowError, 57, 107 
Euclid's algorithm ( 欧 几 里 德 算法 ) ，4, 58 
Eulerian cycle ( 欧 拉 环 ) ，562, 598 
Event-driven simulation ( 事件 驱动 模拟 ) ，349, 856-865 
Exception. See also Error ( 异常 ， 另 见 错误 ) 
Arithmetic, 107 
ArrayIndexOutOfBounds，107 
ClassCast，387 
NoSuchElement, 139 
Nu11Pointer，159 
Runtime, 107 
UnsupportedOperation, 139 
ConcurrentModification, 160 
exchC) method (exch() 方法 ) ，245, 315 
Exhaustive search ( 穷 举 搜 索 ) ，912 
Exponential inequality ( 指数 级 别 ) ，185 
Exponential running time ( 指数 级 别 的 运行 时 间 ) ，186, 
661, 911 
Extended Church-Turing thesis ( 扩展 丘 奇 - 图 灵 论 题 ) ， 
910 
Extensible library ( 可 扩展 的 库 ) ，101 
External path length ( 外 部 路 径 长 度 ) ，418, 832 
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Factor an integer ( 整数 的 因数 ) ，919 
Factorial function ( 阶乘 函数 ) ，185 
Fail-fast iterator ( 快速 出 错 的 选 代 器 ) ，160, 171 
Farthest pair ( 最 遥远 的 一 对 ) ，210 
Fibonacci heap ( 斐 波 纳 契 堆 ) ，628, 682 
Fibonacci numbers ( 斐 波 纳 契 数 ) ，57 
FIFO. See First-in first-out policy ( 先进 先 
策略 ) 
FIFO queue. See Queue data type ( 先进 先 出 队列 ， 见 队列 
数据 类 型 ) 
File system ( 文件 系统 ) ，493 
Filter ( 过 滤器 ) ，60 
blacklist ( 黑 名 单 ) ，491 
dedup (dedup 过 滤器 ) ，490 
whitelist ( 白 名 单 ) ，8, 491 
final access modifier ( final 访问 修饰 符 ) ，105-106 
Fingerprint search ( 指纹 搜索 ) ，774-778 
Finite state automaton. See Deterministic finite state 
automaton 
First-in-first-out policy ( 先进 先 出 策略 ) ，126 
Fixed-capacity stack ( 定 容 栈 ) ，132, 134-135 
Fixed-length code ( 定 长 编码 ) ，826 
Float primitive data type ( 浮 点 型 原始 数据 类 型 ) ，13 
Flood fill (填充 ) ，563 
Floor function ( 向 上 取 整 函数 ) 
binary search tree ( 二 叉 查找 树 ) ，406 
mathematical function ( 数学 丽 数 ) ，185 
ordered array ( 有 序数 组 ) ，380 
symbol table ( 符号 表 ) ，367, 383 
Flow (流量 ) ，888. See also Maxflow problem ( 另 见 Maxflow 
problem ) 
flow network ( 流量 网 络 ) ，888 
inflow and outflow( 流入 量 和 流出 量 ) ，888 
residual network ( 剩余 网 络 ) ，895 
st-flow (sf- 流量 ) ，888 
st-flow network (sf- 流量 网 络 ) ，888 
value ( 值 ) ，888 
Floyd, R. W., 326 
Floyd's method ( Floyd 方法 ) ，327 
for loop (for 循环) ，16 
Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，891-893 
analysis of ( 分析 ) ，900 
maximum-capacity path ( 最 大 容量 增 广 路 径 ) ，901 
shortest augmenting path ( 最 短 增 广 路 径 ) ，897 
Ford, 工 ，683 
Foreach loop ( foreach 循环 ) ，138 
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arrays ( 数组 ) ，160 
strings ( 字符 串 ) ，160 
Forest ( 森林 ) 
graph (图 ) ，520 
spanning ( 生成 ) ，520 
Forest-of-trees ( 森林 ) ，225 
Formatted output ( 格式 化 输出 ) ，37 
Fortran language ( Fortran 语言 ) ，217 
Fragile base class problem ( 脆弱 的 基 类 问题 ) ，112 
Frazer, W., 306 
Fredman, M. L., 628 
Function-call stack ( 函数 调用 所 需 的 栈 ) ，246, 415 


G 


Garbage collection ( 垃圾 收集 ) ，104, 195 
loitering ( 对 象 游离 ) ，137 
mark-and-sweep ( 标记 - 清除 ) ，573 
Gaussian elimination ( 高 斯 消 元 法 ) ，919 
Generics ( 泛 型 ) ，122-123, 134-135 
and covariant arrays ( 泛 型 与 共 蛮 数组 ) ，158 
and type erasure ( 泛 型 与 类 型 擦 除 ) ，158 
array creation ( 创建 数组 ) ，134, 158 
parameterized type ( 参数 化 类 型 ) ，122 
priority queues ( 优先 队列 ) ，305 
stacks and queues ( 栈 和 队列 ) ，134-135 
symbol tables ( 符号 表 ) ，363 
type parameter ( 类 型 参数 ) ，122, 134 
Genomics ( 基因 组 ) ，492, 498 
Geometric data types ( 几何 对 象 数据 类 型 ) ，76-77 
Geometric sum ( 等 比 数 列 之 和 ) ，185 
getClass() method ( getC1ass() 方法 ) ，101, 103 
Girth of a graph ( 图 的 周 长 ) ，559 
Global variable ( 全 局 变量 ) ，113 
Gosper, R. W., 759 
Graph data type ( 图 数据 类 型 ) ，522-527 
Graph isomorphism ( 图 同 构 ) ，561, 919 
Graph processing ( 图 处 理 ) ，514-693. See also Directed 
graph ( 另 见 Directed graph ) ; See also Edge-weighted 


digraph ( 另 见 Edge-weighted digraph ) ; See also Edge- 
weighted graph ( 另 见 Edge-weighted graph ) ; See also 


Undirected graph ( 另 见 Undirected graph ) ; See also 
Directed acyclic graph ( 男 见 Directed acyclic graph ) 
Bellman-Ford ( Bellman-Ford 算法 ) ，668-681 
breadth-first search ( 广度 优先 搜索 ) ，538-541 
components ( 分量) ，543-546 

critical-path method ( 关键 路 径 法 ) ，664_666 
depth-first search ( 深度 优先 搜索 )，530-537 
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Dijkstra's algorithm ( Dijkstra 算法 ) ，652 

Kosaraju's algorithm ( Kosaraju 算法 ) ，586-590 

Kmuskal's algorithm ( Kruskal 算法 ) ，624_627 

longest paths ( 最 长 路 径 ) ，911-912 

max bipartite matching ( 最 大 二 分 图 匹配 ) ，906 

min spanning tree ( 最 小 成 生 树 ) ，604-637 

Prim salgorithm ( Prim 算法 ) ，616-623 

reachability ( 可 达 性 ) ，570-573 

shortest paths ( 最 短路 径 ) ，638-693 

strong components ( 强 连通 分 量 ) ，584-591 

symbol graphs ( 符号 图 ) ，548 

transitive closure ( 传递 闭 包 ) ，592-593 

union-find ( union-find 算法 ) ，216-241 
Greatest common divisor ( 最 大 公约 数 ) ，4 
Greedy algorithm ( 贪心 算法 ) 

Huffman encoding ( 截 夫 曼 编码 ) ，830 

minimum spanning tree ( 最 小 生成 树 ) ，607 
Grep, 804 


H 


Halting problem ( 停机 问题 )，910 
Hamiltonian cycle ( 汉密尔顿 环 ) ，562, 920 
Hamiltonian path ( 汉密尔顿 路 径 ) ，598, 913, 920 
Handle (句柄 ) ，112 
Hard-disc model ( 刚性 球体 模型 ) ，856 
Harmonic number ( 调和 数 ) ，23, 185 
Harmonic sum ( 调和 数 之 和 ) ，185 
hashCode() method ( hashCodeO) 方法 ) ，101, 102, 461- 
462 
Hash function ( 散 列 函数 ) ，458, 459-463 
modular ( 除 留 余数 ) ，459 
perfect ( 完美 散 列 函 数 ) ，480 
Rabin-Karp algorithm ( Rabin-Karp 算法 ) ，774 
Hashing. See Hash function ( 散 列 ， 见 Hash function ) 
See also Hash table ( 另 见 Hash table ) 
hash function ( 散 列 函数 ) ，459-463 
time-space tradcoff ( 时 间 和 空间 作出 权衡 ) ，458 
Hash table ( 散 列表 ) ，458-485 
array resizing ( 调整 数组 大 小 ) ，474-475 
clustering ( 键 筑 ) ，472 
collision resolution ( 处 理 碰撞 冲突 ) ，458 
cuckoo hashing ( 布谷 乌 散 列 ) ，484 
deletion ( 删除 ) ，468 
double hashing ( 二 次 散 列 ) ，483 
double probing ( 二 次 探测 ) ，483 
duplicate keys ( 重复 元 素 ) ，488 
hashCode() method ( hashCodeQ) 方法 )，61-462 
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hash function ( 散 列 函数 ) ，458 
Java library (Java 库 ) ，489 
linear probing ( 线性 探测 ) ，469-474 
load factor ( 使 用 率 ) ，471 
memory usage of ( 内 存 使 用 ) ，476 
primitive types ( 原始 数据 类 型 ) ，488 
separate chaining ( 拉链 法 ) ，464-468 
uniform hashing assumption ( 均匀 散 列 假设 ) ，463 
Head vertex ( 头顶 点 ) ，566 
Heap. See Binary heap ( 堆 ， 见 Binary heap ) 
multiway ( 多 又 堆 ) ，319 
Heap order ( 堆 有 序 ) ，313 
Heapsort ( 堆 排 序 ) ，323-327 
Height ( 树 的 高 度 ) 
2-3 search tree ( 2-3 查找 树 ) ，429 
binary search tree ( 二 又 查找 树 ) ，412 
complete binary tree ( 二 丸 树 ) ，314 
red-black BST ( 红 黑 二 叉 查 找 树 ) ，444 
tree ( 树 ) ，226 
Hibbard deletion ( Hibbard 删除 方法 ) ，422 
Hibbard, T., 410 
Hoare, C. A. R., 205 
Homer's method ( Homer 方 法 ) ，460 
h-sorted array (有 序数 组 ) ，258 
Huffman compression ( 逢 夫 辫 压缩 ) ，350, 826-838 
analysis of ( 分 析 ) ，833 
optimality of ( 最 优 性 ) ，833 
Huffman, D.，827 





if statement (if 语句 ) ，15 
if-else statement ( if-else 语句 ) ,15 
Immutability ( 不 可 变性 ) ，105-106 
defensive copy ( 保护 性 复制 ) ，112 
of strings ( 字符 串 的 不 可 变性 ) ，114, 202, 696 
priority queue keys ( 优先 队列 中 的 元 素 ) ，320 
symbol table keys ( 符号 表 中 的 键 ) ，365 
Implementation ( 实现 ) ，28, 88 
Implementation inheritance ( 实现 继承 ) ，101 
import statement ( import 语句 ) ，27, 29, 66 
Incident edge ( 关联 边 ) ，519 
Increment sequence ( 递增 序列 ) ，258 
In data type ( In 数据 类 型 ) ，41, 83 
Indegree of a vertex ( 顶点 的 人 度 ) ，566 
Index (索引 ) ，361, 496-501 
string ( 字符 串 索 引 ) ，877 
files ( 文件 索引 ) ，500-501 


inverted ( 反 向 索引 ) ，498-501 
Index priority queue ( 索引 优先 队列 ) ，320-322 
Dijkstra's algorithm ( Dijkstra 算法 ) ，652 
Prim's algorithm ( Prim 算法 ) ，620 
Indirect sort ( 间接 排序 ) ，286 
Ineligible edge ( 无 效 边 ) 
minimum spanning tree ( 最 小 生成 树 ) ，616 
shortest paths ( 最 短路 径 ) ，646 
Infix notation ( 中 组 记 法 ) ，13, 128, 162 
Inherited methods ( 继承 的 方法 ) ，66, 100-101 
compare(), 338-339 
compareTo() ，246-247 
equalsO ，102-103 
getClassO, 101 
hashCode(), 101, 461-462 
hasNext(), 138 
iteratorO, 138 
nextO, 138 
toStringO), 66, 101 
Inner loop ( 内 循环 ) ，180, 184, 195 
Inorder tree traversal ( 中 序 遍 历 ) ，412 
In-place merge ( 原 地 合并 ) ，270 
Input and output ( 输入 和 输出 ) ，82-83 
binary data ( 二 进 制 数据 ) ，812-815 
from a file ( 从 文件 重 定向 标准 输入 或 将 标准 输出 重 
定向 到 文件 ) ，41 
piping (管道 ) ，40 
redirection ( 重 定向 ) ，40 
Input model (输入 模型 ) ，197 
Input size ( 输入 规模 ) ，173 
Insertion sort ( 搬入 排 序 ) ，250-252 
Instance method ( 实例 方法 ) ，65, 84 
Instance variable ( 实例 变量 ) ，84 
int primitive data type ( int 原始 数据 类 型 ) ，12 


Integer linear inequality satisfiability problem ( 整数 线性 不 


等 式 可 满足 性 问题 ) ，913 
Jnteger linear programming ( 整数 线性 规划 ) ，920 
Integer overflow ( 整数 溢出 ) ，51 
Interface ( 接口 ) ，100 

Comparable, 246-247 

Comparator , 338-340 

Iterable, 138 

Iterator, 139 
Jnterface inheritance ( 接口 继承 ) ，100 
Interior point method ( 内 点 法 ) ，909 
Internal path length ( 内 部 路 径 长 度 ) ，412 
Intemet DNS (互联 网 DNS ) ，493 
Intemet Movie Database ( 互联 网 电影 数据 库 ) ，497 
Interpreter ( 解释 器 ) ，130 


Interval graph ( 区 间 图 ) ，564 
Intractability ( 不 可 解 性 ) ，910-921 
Inversion ( 反 向 ) ，252,，286 
Inverted index ( 反 向 索引 ) ，498-501 
lsing model ( 伊 辛 模型 ) ，920 
Isomorphic graph ( 同 构图 ) ，561 
ltem (元 素 ) 
contains a key ( 每 个 元 素 有 一 个 主键 ) ，244 
sorting ( 排序 ) ，244 
symbol table ( 符号 表 ) ，387 
with multiple keys ( 多 键 数组 ) ，339 
Item type parameter ( Item 数据 类 型 ) ，134 
lteration ( 选 代 ) ，123, 138-141 
fail-fast ( 快速 出 错 ) ，171 
foreach loop ( foreach 循环 ) ，123 


Jacquet, P，882 
Jamik's algorithm ( Jarnik 算法 ) ，628 
See also Prim's algorithm ( 另 见 Prim 算法 ) 
Jamik, V., 628 
Java programming (Java 编程 ) 
amray (数组 ) ，18-21 
arrays as objects ( 数组 对 象 ) ，72 
arrays ofobjects ( 对 象 的 数组 ) ，72 
assertion (断言 ) ，107 
assert statement ( assert 语句 ) ，107 
assignment statement ( 赋值 语句 ) ，14 
autoboxing ( 自动 装 箱 ) ，122 
autounboxing ( 自动 拆 箱 ) ，122 
base class ( 基 类 ) ，101 
bitwise operators ( 位 运算 符 ) ，52 
block statement ( 请 句 块 ) ，15 
boolean expression ( 布尔 表达 式 ) ，13 
break statement ( break 语句 ) ，15 
bytecode ( 字 节 码 ) ，10 
cast (类 型 转换 ) ，13 
class (类 ) ，10, 64 
classpath ( 类 路 径 ) ，66 
comparison operator ( 比较 运算 符 ) ，13 
conditional statement ( 条 件 语句 ) ，15 
constructor ( 构造 函数 ) ，65, 84 
continue statement ( continue 语句 ) ，15 
covariant arrays ( 共 变 数组 ) ，158 
create an object ( 创建 对 象 ) ，67 
declaration statement ( 声明 语句 ) ，14 
default initialization ( 默认 初始 化 ) ，18, 86 


deprecated method ( 弃 用 的 方法 ) ，113 
derived class ( 派生 类 ) ，101 

Error，107 

Exception，107 

expression ( 表达 式 ) ，11, 13 

final modifier ( final 修饰 符 ) ，84, 105-106 
for loop ( for 循环 ) ,16 

foreach loop ( foreach 循环 ) ，123 
garbage collection ( 垃圾 收集 ) ，104 
generic array creation ( 创建 泛 型 数组 ) ，158 
Benerics ( 泛 型 ) ，122-123, 134-135 
identifier ( 标识 符 ) ，11 
fstatement ( if 语句) ，15 

if-else statement ( if-else 语 句 ) ，15 
implicit assignment ( 隐 式 赋值 ) ，16 
import statement ( import 语句 ) ，29 
imported system libraries ( 导 人 的 系统 库 ) ，27 
infix expression ( 中 组 表达 式 ) ，13 
inheritance ( 继承 ) ，100-101 
inherited method ( 继承 的 方法 ) ，66 

initializing declarations ( 初始 化 声明 ) ，16 
inner class ( 内 部 类 ) ，159 
instance method ( 实例 方法 ) ，65, 84, 86 
instance method signature ( 实例 方法 签名 ) ，86 
instance variable ( 实例 变量 ) ，84 

invoke instance method ( 调用 实例 方法 ) ，68 
iterable collections ( 可 迭代 的 集合 ) ，123 
just-in-time compiler (JIT 编译 器 ) ，195 
literal ( 字面 量 ) ，11 

loitering ( 游离 对 象 ) ，137 

loop statement ( 循环 语句 ) ，15 

memory management ( 内 存 管 理 ) ，104 
modular programming ( 模块 化 编程 ) ，26 
nested class ( 位 套 类 ) ，159 

new(), 67 

objects (对象) ，67-74 

objects as arguments ( 对 象 作为 参数 ) ，71 
objects as retum values ( 对 象 作为 返回 值 ) ，71 
operator ( 运算 符 ) ，11 

operator precedence ( 运算 符 优先 级 ) ，13 
omphan ( 孤儿 ) ，137 
ormphaned object ( 孤儿 对 象 ) ，104 
overloading ( 重 载 ) ，12, 24 
override a method ( 重 载 方法 ) ，101 
parameterized type ( 参数 化 类 型 ) ，122, 134 
pass by reference ( 按 引用 传递 ) ，71 

pass by value ( 按 值 传递 ) ，24, 71 

primitive data type ( 原始 数据 类 型 ) ，11-12 
private class ( private 类 ) ，159 
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private modifier ( private 修饰 符 ) ，84 
protected modifier ( protected 修饰 符 ) ，110 
public modifier ( public 修饰 符 ) ，84, 110 
ragged array ( 参差 不 齐 的 数组 ) ，19 
recursion ( 递归 ) ，25 
reference (引用 ) ，67 
reference type ( 引用 类 型 ) ，64 
return statement ( return 语句 ) ，86 
scope (作用 域 ) ，14, 87 
short-circuiting ( 短路 求 值 法 则 ) ，52 
side effects ( 副作用 ) ，24 
single-statement blocks ( 单 语句 代码 段 ) ，16 
standard libraries ( 标准 库 ) ，27 
standard system libraries ( 标准 系统 库 ) ，27 
statement ( 语句) ，14 
static method ( 静态 方法 ) ，22-25 
static variable ( 静态 变量 ) ，113 
strong typing ( 强 类 型 ) ，14 
subclass ( 子 类 ) ，101 
superclass ( 父 类 ) ，101 
this reference ( this 引用 ) ，87 
throw an error/exception ( 抛 出 错误 或 异常 ) ，107 
two-dimensional aray ( 二 维 数组 ) ，19 
type conversion ( 类 型 转换 ) ，13, 35 
type erasure ( 类 型 氛 除 ) ，158 
type parameter ( 类 型 参数 ) ，122 
unit testing ( 单元 测试 ) ，26 
using objects ( 使 用 对 象 ) ，69 
variable (变量 ) ，11 
visibility modifier ( 可 见 性 修饰 符 ) ，84 
while loop ( while 循环 ) ，15 
wrapper type ( 封装 类 型 ) ，122 
Java system sort ( Java 系统 排序 ) ，306 
Java virtual machine ( Java 虚拟 机 ) ，51 
java.awt 
Color, 75 
Font, 75 
java.io 
File, 75 
java. lang 
ArithmeticException, 107 
ArrayIndexOutOfBounds ,107 
Boolean, 102 
Byte, 102 
Character, 102 
ClassCastException, 387 
Comparable, 100 
Double, 34, 102 
Float, 102 





Integer, 102 
Iterable, 100, 123, 138, 154 
Long, 102 
Math, 28 
NullPointer, 107, 113, 159 
Object, 101 
OutOfMemoryError, 107 
RuntimeException, 107 
Short, 102 
StackOverflowError, 57,107 
StringBuilder, 27, 105, 697 
UnsupportedOperation, 139 
java.net 
URL, 75 
java.util 
ArrayList, 160 
Arrays, 29 
Comparator, 100, 339 
ConcurrentModification, 160 
Date, 113 
HashMap, 489 
Iterator, 100, 138-141, 154 
LinkedList, 160 
NoSuchElementException, 139 
PriorityQueue, 352 
Stack, 159 
TreeMap, 489 
Job-scheduling problem. See Scheduling ( 任务 调度 问题 ， 
见 Scheduling ) 
Josephus problem ( Josephus 问题 ) ，168 
Just-in-time compiler (JIT 编辑 器 ) ，195 


K 


Karp, R., 759, 901 
Kendall tau distance ( Kendall's tau 距离 ) ，286, 345, 356 
Kevin Bacon number ( Kevin Bacon 数 ) ,553-554 
Key ( 键 ) ,244 
Key equality ( 键 的 等 价 性 ) 
ordered symbol table ( 有 序 符号 表 ) ，368 
symbol table ( 符号 表 ) ，365 
Key-indexed counting ( 键 索引 计数 法 ) ，703-705 
Key type parameter ( Key 类 型 参数 ) 
priority queue ( 优先 队列 ) ，309 
symbol table ( 符号 表 ) ，361 
Keyword in context ( 上 下 文中 的 关键 词 ) ，879 
Khachian, L. G., 909 
Kleene’s theorem ( Kleene 定理 ) ，794 


Knuth, D, E., 178, 205, 759 
Knuth-Morris-Pratt, 762-769 

Kosaraju's algorithm ( Kosaraju 算法 ) ，586-590 
Kruskal, J., 628 

Kruskal's algorithm ( Kruskal 算法 ) ，624-627 

KWIC. See Keyword-in-context (KWIC， 见 Keyword-in- 


context ) 


L 


Last-in-first-out policy ( 后 进 先 出 策略 ) ，127 
Las Vegas algorithm ( 拉 斯 维 加 斯 算法 ) ，778 
Leading-term approximation, See Tilde notation( 首 项 近似 ， 
见 Tilde notation ) 
Least-significant digit ( 最 低 有 效 位 数 ) 
See LSD string sort ( 见 LSD string sort ) 
Leipzig Corpora Collection ( Leipzig Corpora 数据 库 ) , 
371 
Lempel, A., 839 
less() method ( less() 方法 ) ，245, 315 
Level-order traversal ( 按 层 遍历 ) 
binary heap (二 又 堆 ) ，313 
binary scarch tree ( 二 又 查 找 树 ) ，420 


Levin, L., 918 

LIFO. See Last-in first-out policy ( LIFO， 见 Last-in first- 
out policy ) 

LIFO stack, See Stack data type (LIFO 栈 ， 见 Stack data 
type) 


Linear equation satisfiability ( 线性 等 式 可 满足 性 ) 913 
Linear inequality satisfiability ( 线性 不 等 式 可 满足 性 ) , 
913 
Linear probing ( 线性 探测 ) ，469-474 
Linear programming ( 线性 规划 ) ，907-909 
ellipsoid algorithm ( 椭 球 法 ) ，909 
interior point method ( 内 点 法 ) ，909 
reductions ( 归 约 ) ，907-909 
simplex algorithm ( 单纯 形 法 ) ，909 
Linear running time ( 线性 级 别 的 运行 时 间 ) ，186 
Linearithmic running time ( 线性 对 数 级 别 的 运行 时 间 ) ， 
186 
Linked allocation ( 链 式 存储 ) ， 
Linked list ( 链表 ) ，142-146 
building ( 创建 链表 ) ，143 
circular ( 环形 链表 ) ，165 
defined (定义 ) ，142 
deletion ( 删除 元 素 ) ，145 
deletion from beginning ( 从 表 头 删除 元 素 ) ，145 
garbage collection ( 垃圾 收集 ) ，145 


156 


insertion ( 插入) ，145 
insertion at beginning ( 在 表 头 插入 节点 ) ，144 
insertion at end ( 在 表 尾 搬入 节点 ) ，145 
iterator ( 迭代 器 ) ，154-155 
memory usage of ( 内 存 使 用 ) ，201 
Node data type ( Node 数据 类 型 ) ，142 
queue (队列 ) ，150 
Teverse a ( 将 链表 反 转 ) ，165 
sequential search ( 顺序 查找 ) ，374 
shuffle a ( 打 乱 链表 ) ，288 
sorta ( 链表 排序 ) ，286 
stack ( 栈 ) ，147-149 
traversal ( 遍历 ) ，146 
Literal ( 字面 量 ) 
nu11，112-113 
primitive type ( 原始 数据 类 型 ) ，11 
string ( 字符 串 ) ，80 
Load-balancing ( 负载 均衡 ) ，349, 909 
Load factor ( 使 用 率 ) ，471 
Local minimum ( 数组 的 局 部 最 小 元 素 ) ，210 
Logarithm function ( 对 数 函 数 ) 
binary ( 以 2 为 底 的 对 数 函数 ) ，185 
integer binary ( 以 2 为 底 的 整 型 对 数 函数 ) ，185 
natural ( 自然 对 数 函 数 ) ，185 
Logarithmic running time ( 线性 对 数 级 别 的 运行 时 间 ) ， 
186 
Log-log plot ( 对 数 图 像 ) ，176 
Loitering ( 游离 对 象 ) ，137 
Longest common prefix ( 最 长 公共 前 组 ) ，875 
Longest paths ( 最 长 路 径 ) ，661, 911 
Longest prefix match ( 匹配 的 最 长 前 组 ) ，842 
Longest processing-time first mule ( 最 大 优先 ) ，349 
Longest repeated substring ( 最 长 重复 子 字符 中 ) ，875 
1ong primitive data type ( 1ong 原始 数据 类 型 ) ，13 
Loop ( 循环 ) 
for, 16 
foreach, 138 
inner ( 内 部 循环 ) ，180 
while, 15 
Lossless data compression ( 无 损 数据 压缩 ) ，811 
Lossy data compression ( 有 损 数据 压缩 )，811 
Lower bound ( 下界) 
priority queue ( 优先 队列 ) ，332 
sorting ( 排序) ，279-282 
3-sum problem ( 3-sum 问题 ) ，190 
union-find ( union-find 算法 ) ，231 
Lowest common ancestor ( 最 近 公 共 祖 先 ) ，598 
Loyd, S., 358 
LSD string sort ( 低位 优先 的 字符 串 排序 ) ，706-709 
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LZW algorithm ( LZW 压缩 算法 ) ，839-845 
compression ( 压缩 ) ，840 
expansion ( 压缩 的 展开 ) ，841 
trie representation ( 单词 查找 树 表示 ) ，840 


Manber U., 884 
Mark-and-sweep garbage collection ( 标记 - 清除 的 垃圾 收 
集 ) , 573 
Maslow, A., 904 
Maslow's hammer ( Maslow 的 锤子 ) ，904 
Matrix data type ( 矩阵 数据 类 型 ) ，60 
Maxflow-mincut theorem ( 最 大 流 一 最 小 切 分 定理 ) ，894 
Maxflow problem ( 最 大 流 问题 ) ，886-902 
See also Mincut problem ( 另 见 Mincut problem ) 
Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，891-893 
integrality property ( 完整 性 ) ，894 
maxflow-mincut theorem ( 最 大 流 一 最 小 切 分 定理 ) ,， 
892-894 
max bipartite matching ( 最 大 二 分 图 匹配 问题 ) 906 
preflow-push algorithm ( preflow-push 算法 ) ，902 
reductions ( 归 约 ) ，905-907 
residual network ( 剩余 网 络 ) ，895-897 
Maximum ( 最 大 元 素 ) 
in aray ( 数组 中 的 最 大 元 素 ) ，30 
in binary heap ( 二 又 堆 中 的 最 大 元 素 ) ，313 
in binary search tree ( 二 又 查找 树 中 的 最 大 元 素 ) ，406 
in ordered symbol table ( 有 序 符号 表 中 的 最 大 元 素 ) ， 
367 
Maximum st-flow problem. See Maxflow problem ( 最 大 sr- 
流量 问题 ， 见 Maxflow problem ) 
Max bipartite matching ( 最 大 二 分 图 匹配 问题 ) ，906 
Maze (迷宫 ) ，530 
Mellroy, D., 298, 306 
McKellar, A.，306 
Median ( 中 位 数 ) ，332, 345-347 
Median-of 3 partitioning ( 三 取样 切 分 ) ，305 
Memory management ( 内 存 管理 ) ，104 
linked allocation ( 链 式 存储 ) ，156 
loitering (游离 对 象 ) ，137 
orphan ( 孤儿 ) ，137 
Sequential allocation ( 顺序 存储 ) ，156 
Memory usage ( 内 存 使 用 ) ，200-204 
array (数组 ) ，202 
hash table ( 散 列表 ) ，476 
linked list (链表 ) ，201 
nested class ( 嵌 套 类 ) ，201 


object ( 对 象 ) ，67, 201 
primitive types ( 原始 数据 类 型 ) ，200 
R-way trie ( R 向 单词 查找 树 ) ，746 
stack ( 栈 ) ，213 
string (字符 串 ) ，202 
substring ( 子 字符 串 ) ，202-204 
Mergesort ( 合并 排序 ) ，270-288 
abstract in-place merge ( 抽象 原 地 合并 算法 ) ，270 
analysis of ( 合并 排序 分 析 ) ，272 
bottom-up ( 自 底 向 上 的 合并 排序 ) ，277 
linked list (链表 ) ，279, 286 
multiway ( 多 向 合并 排序 ) ，287 
natural ( 自然 合并 排序 ) ，285 
optimality ( 最 优 算法 ) ，282 
stability ( 稳定 性 ) ，341 
top-down ( 自 顶 向 下 的 合并 排序 ) ，272 
Merging ( 合并 ) ，270-271 
Method (方法 ) 
inherited ( 继承 的 方法 ) ，100-101 
instance ( 实例 方法 ) ，68-69, 86-87 
static ( 静态 ) ，22-25 
Mincut problem ( 最 小 切 分 问题 ) ，893 
See also Maxflow problem ( 男 见 Maxflow problem ) 
Minimum ( 最 小 元 素 ) 
in array ( 数组 中 的 最 小 元 素 ) ，30 
in binary search tree ( 二 又 查找 树 中 的 最 小 元 素 ) ，406 
in ordered symbol table ( 有 序 符号 表 中 的 最 小 元 素 ) ， 
367 
Min spanning forest ( 最 小 生成 森林 ) ，605 
Min spanning tree ( 最 小 生成 树 ) ，604-637 
Boruvka's algorithm ( Boruvka 算法 ) ，636 
bottleneck shortest paths ( 瓶颈 最 短路 径 ) ，690 
critical edge ( 关键 边 ) ，633 
crossing edge ( 横 切 边 ) ，606 
cut ( 切 分 ) ，606 
cut optimality conditions ( 最 优 切 分 条 件 ) ，634 
cut property ( 切 分 定理 ) ，606 
defined ( 定义) ，604 
greedy algorithm ( 贪心 算法 ) ，607 
Kmuskal's algorithm ( Kruskal 算法 ) ，624-627 
Prim's algorithm ( Prim 算法 ) ，616-623 
reverse-delete algorithm ( 道 向 删除 算法 ) ，633 
Vyssotsky's algorithm ( Vyssotsky 算法 ) ，633 
Minimum st-cut problem. See Mincut problem ( 最 小 st- 切 
分 问题 ， 见 Mincut problem ) 
Minotaur ( 米 诺 陶 ) ，530 
Mismatched character rule ( 启发 式 处 理 不 匹配 的 字符 法 
则 ) ，770 
M.L. Fredman, 628 


Modular hash function ( 除 留 余数 法 散 列 函数 ) ，459, 774 

Modular programming ( 模块 化 编程 ) ，26 

Monte Carlo algorithm ( 蒙特 卡 洛 法 ) ，776 

Moore, 1. S., 759 

Moore's law ( 摩尔 定律 ) ，194-195 

Morris, J. H., 759 

Most-significant-digit sort. See MSD string sort (高 位 优先 
的 字符 串 排序 ， 见 MSD string sort ) 

Move-to-front ( 前 移 编码 ) ，169 

MSD string sort ( 高 位 优先 的 字符 串 排序 ) ，710-718 

Multidimensional sort ( 多 维 排序 ) ，356 

Multigraph ( 多 重 图 ) ，518 

Multiple-source reachability problem ( 多 点 可 达 性 问题 ) ， 
570,797 

Multiset, 509 

Multiway mergesort ( 多 向 合并 排序 ) ，287 

Multiway trie. See R-way trie ( 多 向 单词 查找 树 ， 见 R-way 
trie) 

Myers, E., 884 


Natural logarithm function ( 自然 对 数 函 数 ) ，185 
Natural mergesort ( 自然 合并 排序 ) ，285 
Natural order ( 自然 次 序 ) ，337 

Negative cost cycle ( 负 权重 的 环 ) 

See Negative cycle ( 见 Negative cycle ) 
Negative cycle ( 负 权重 的 环 ) ，668-670, 677-681 
Nested class ( 伐 套 类 ) ，159 
Network flow ( 网 络 流量 ) 

See Maxflow problem ( 见 Maxflow problem ) 
newO), 67 
Newton's method ( 牛顿 迭代 法 ) ，23 
NFA. See Nondeterministic finite-state automata ( 非 确定 有 限 

状态 自动 机 ， 见 Nondeterministic finite-state automata ) 
Node data type ( Node 数据 类 型 ) ，159 
bag ( 背包 ) ，155 
binary search tree ( 二 又 查找 树 ) ，398 
Huffman trie ( 堆 夫 曼 单 词 查 找 树 ) ，828 
linked list (链表 ) ，142 
queue (队列 ) ，151 
red-black BST ( 红 黑 二 又 查找 树 ) ，433 
R-way trie ( R 向 单词 查找 树 ) ，734 
stack( 栈 ) ，149 
ternary search trie ( 三 向 单词 查找 树 ) ，747 
Nondeterminism ( 非 确定 ) ，794 
Turing machine ( 图 灵机 ) ，914 
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Nondeterministic finite-state automata ( 非 确定 有 限 状态 自 
动机 ) ,794-799 

Np, 912 

NP-complete ( NP- 完全 ) ，917-918 

Null link ( 空 链接 ) ，396 

nu11 literal ( nu11 字面 量 ) ，112-113 


O 


Object ( 对 象 ) ，67-74 
See also Object-oriented programming ( 另 见 Object- 
oriented programming ) 
behavior (行为 ) ，67, 73 
identity ( 身份) ，67,73 
memory usage of ( 对 象 的 内 存 使 用 ) ，201 
state ( 对 象 的 状态 ) ，67, 73 
Object-oriented programming ( 面向 对 象 编程 ) ，64-119 
arrays of objects ( 对 象 数组 ) ，72 
creating an object ( 创建 对 象 ) ，67 
declaring an object ( 声明 对 ，67 
encapsulation ( 封装 ) ，96 
inheritance ( 继承) ，100 
instance (实例 ) ，73 
instantiate an object ( 实例 化 对 象 ) ，67 
invoke instance method ( 调用 实例 方法 ) ，68 
objects ( 对象) ，67-74 
objects as arguments ( 对 象 作为 参数 ) ，71 
objects as return values ( 对 象 作为 返回 值 ) ，71 
reference (引用 ) ，67 
subtyping ( 子 类 型 ) ，100 
using objects ( 使 用 对 象 ) ，69 
Odd-length cycle in a graph ( 图 中 长 度 为 奇数 的 环 ) ，562 
OOP See Object-oriented programming ( OOP， 见 Object- 
oriented programming ) 
Operations research ( 运筹 学 ) ，349 
Optimization problem ( 最 优化 问题 ) ，913 
Ordered symbol table ( 有 序 符号 表 ) ，366-369 
floor and ceiling ( 向 上 取 整 和 向 下 取 整 函数 ) ，367 
minimum and maximum ( 最 小 元 素 和 最 大 元 素 ) ，367 
ordered array ( 有 序数 组 ) ，378 
range query ( 范围 查找 ) ，368 
rank and selection ( 排名 和 选择 ) ，367 
red-black BST ( 红 黑 二 又 查找 树 ) ，446 
Order of growth ( 增长 数量 级 ) ，179 
Order-of-growth classifications ( 增长 数量 级 的 分 类 ) ， 
186-188 
Order-of-growth hypothesis ( 增长 数量 级 的 猜想 ) ，180 
Order statistic ( 顺序 统计 ) ，345 
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binary search tree ( 二 又 查找 树 ) ，406 

ordered symbol table ( 有 序 符号 表 ) ，367 

quicksort ( 快速 排序 ) ，345-347 
Orphaned object ( 孤儿 对 象 ) ，104, 137 
Out data type ( Out 数据 类 型 ) ，41, 83 
Outdegree of a vertex ( 顶点 的 出 度 ) ，566 
Output See Input and output ( 输出 ， 见 Input and output ) 
Overflow ( 溢出 ) ，51 
Overloading ( 过载 ) 

constructor ( 构造 函数 ) ，84 

static method ( 静态 方法 ) ，24 
Overriding a method ( 重 载 方法 ) ，66, 101 


P 


Pcomplexity class ( P- 复杂 性 类 ) ，914 
P= NP question ( P= NP 问题 )，916 
Page data type ( Page 数据 类 型 ) ，870 
Palindrome ( 回 文 ) ，81, 783 
Parallel arrays ( 平行 的 数组 ) 
linear probing ( 线性 探测 ) ，471 
ordered symbol table ( 有 序 符号 表 ) ，378 
sorting (排序 ) ，357 
Parallel edge ( 平行 边 ) ，518, 566, 612, 640 
Parallel job scheduling ( 并 行 任务 调度 ) ，663-667 
Parallel precedence-constrained scheduling ( 优先 级 限制 下 
的 并 行 任务 调度 ) ，663, 904 
Parameterized type. See Generics ( 参数 化 类 型 ， 见 Generics ) 
Parent-link representation ( 父 链接 形式 ) 
breadth-first search tree ( 广度 优先 搜索 树 ) ，539 
depth-first search tree ( 深度 优先 搜索 树 ) ，535 
minimum spanning tree ( 最 小 生成 树 ) ，620 
shortest-paths tree ( 最 短路 径 树 ) ，640 
union-find ( union-find 算法 ) ，225 
Parsing ( 解析 ) 
an arithmetic expression ( 算术 表达 式 ) ，128 
aregular expression ( 正则 表达 式 ) ，800-804 
Particle data type (Particle 数据 类 型 ) ，860 
Partitioning algorithm ( 切 分 算法 ) ，290 
2-way ( 二 向 切 分 ) ，288 
3-way (Bentley-Mcllroy) ( Bentley-Mcllroy 三 向 切 分 ) ,， 
306 





3-way (Dijkstra) ( Dijkstra 三 向 切 分 ) ，298 
median-of-3 ( 三 取样 切 分 ) ，296, 305 
median-of-5 ( 五 取样 切 分 ) ，305 
selection ( 基于 切 分 的 选择 算法 ) ，346-347 
Partitioning item ( 切 分 元 素 ) ，290 
Pass by reference ( 按 引用 传递 )，71 






Pass by value ( 按 值 传递 ) ，24, 71 
Path. See Longest paths 
See also Shortest paths ( 路 径 ， 见 Longest paths， 
另 见 Shortest paths ) 
augmenting ( 增 广 ) ，891 
Hamiltonian ( 汉密尔顿 ) ，913, 920 
ina digraph ( 在 有 向 图 中 ) ，567 
ina graph ( 在 图 中 ) ，519 
length of ( 长 度 ) ，519, 567 
simple (简单 ) ，519, 567 
Path compression ( 路 径 压缩 ) ，231 
Pattern matching. 
See Regular expression ( 模式 匹配 ， 见 Regular 
expression ) 
Perfect hash function ( 完美 散 列 函数 ) ，480 
Performance. See Propositions ( 性 能 ， 见 命题 ) 
Permutation ( 排列 ) 
Kendall-tau distance ( Kendall's tau 距离 ) ，356 
random ( 随机 排列 ) ，168 
ranking ( 排名 ) ，345 
sorting ( 排序 ) ，354 
Phone book ( 电话 黄页 ) ，492 
Picture data type ( Picture 数据 类 型 ) ，814 
Piping ( 管道 ) ，40 
Point data type ( Point 数据 类 型 ) ，77 
Pointer，111. See also Reference ( 指针 ， 另 见 Reference ) 
Safe ( 安全 指针 ) ，112 
Pointer sort (指针 排序 ) ，338 
approximation ( 泊 松 近似 ) ，466 
Poisson distribution ( 泊 松 分 布 ) ，466 
Polar angle ( 极 角 ) ，356 
Polar coordinate ( 极 坐标 ) ，77 
Poly-time reduction ( 多 项 式 时 间 问题 的 相互 归 约 ) ，916 
Pop operation ( 出 栈 操作 ) ，127 
Postfix notation ( 后 组 记 法 ) ，162 
Postorder traversal ( 后 序 遍 历 ) 
of a digraph ( 对 于 有 向 图 ) ，578 
reverse ( 取 反 ) ，578 
Power law ( 宕 次 规则 ) ，178 
Pratt, V. R., 759 
Precedence-constrainted scheduling ( 优先 级 限制 下 的 任 
务 调度 ) ,574-575 
Precedence order ( 优先 级 次 序 ) 
arithmetic expressions ( 算术 表达 式 ) ，13 
regular expressions ( 正则 表达 式 ) ，789 
Prefix-free code (前缀 码 ) ，826-827 
compression ( 压缩 ) ，829 
expansion ( 压缩 的 展开 ) ，828 
Huffman ( 霍 夫 曼 ) ，833 





optimal ( 最 优 的 ) ，833 
reading and writing ( 读 和 写 ) ，834-835 
trie representation ( 单词 查找 树 表示 ) ，827 
Preorder traversal ( 前 序 遍 历 ) 
of a digraph ( 对 于 无 向 图 ) ，578 
of a trie ( 对 于 单词 查找 树 ) ，834 
Prime number ( 素数 ) ，23, 774, 785 
Primitive data type ( 原始 数据 类 型 ) ，11-12 
memory usage of ( 内 存 使 用 ) ，200 
wrappertype ( 封装 类 型 ) ，102 
Primitive type ( 原始 数据 类 型 ) 
versus reference type ( 及 引用 类 型 ) ，110 
Prim, R., 628 
Prim' salgorithm ( Prim 算法 ) ，350, 616-623 
eager ( 即时 实现 ) ，620-623 
lazy ( 延 时 ) ，616-619 
Priority queue ( 优先 队列 ) ，308-335 
binary heap ( 二 叉 堆 ) ，313-322 
change priority ( 改变 优先 级 ) ，321 
delete ( 删除 元 素 ) ，321 
Dijkstra's algorithm ( Dijkstra 算法 ) ，652 
Fibonacci heap ( 斐 波 纳 契 堆 ) ，628 
Huffman compression ( 短 夫 晶 压 缩 ) ，830 
index priority queue ( 索引 优先 队列 ) ，320-321 
linked-list ( 链表 ) ，312 
multiway heap ( 多 叉 堆 ) ，319 
ordered array ( 有 序数 组 ) ，312 
Prim's algorithm ( Prim 算法 ) ，616 
Teductions ( 归 约 ) ，345 
remove the minimum ( 删除 最 小 元 索 ) ，321 
stability ( 稳定 性 ) ，356 
unordered array ( 无 序数 组 ) ，310 
private access modifier ( private 访问 修饰 符 ) ，84 


Probabilistic algorithm. See Randomized algorithm ( 演算 法 


见 Randomized algorithm ) 
Probe (探测 ) ，471 
Problem size ( 问题 规模 ) ，173 
Programs ( 程序 ) 
Accumulator, 93 
AcyclicLp, 661 
Acyclicsp, 660 
Arbitrage, 680 
Average, 39 
Bag, 155 
BellmanFordSp, 674 
BinaryDump, 814 
BinarySearch, 47 
BinarySearchST, 379, 381, 382 
BlackFilter, 491 


BoyerMoore, 772 
BreadthFirstPaths, 540 
BST, 398, 399, 407, 409, 411 
BTreeSET, 872 

Cat, 82 

Cc, 544 
CollisionSystem, 863-864 
Count, 699 

Counter, 89 

CpM, 665 

Cycle, 547 

Date, 91, 103,247 

DeDup, 490 
DegreesOfSeparation, 555 
DepthFirstOrder, 580 
DepthFirstpaths, 536 
DepthFirstSearch, 531 
Digraph, 569 
DijkstraAllpairssp, 656 
DijkstraSp, 655 
DirectedCycle, 577 
DirectedDFS，571 
DirectedEdge, 642 
DoublingTest, 177 

Edge, 610 
EdgeweightedDigraph, 643 
EdgeweightedGraph, 611 
Evaluate, 129 
Event，861 

Example, 245 

FileIndex, S01 
FixedCapacityStack, 135 
FixedCapacityStackOfStrings，133 
Flips, 70 

FlipsMax, 71 

FlowEdge, 896 
FordFulkerson, 898 
FrequencyCounter, 372 
Genome, 819-820 

Graph, 526 

CREP, 804 

Heap, 324 

HexDump, 814 

Huffman, 836 

Insertion, 251 

KMP，768 

KosarajuSCC, 587 
KruskalMST, 627 

KwIC. g81 


可 627 


628 PF 未 引 











LazyPrimMST, 619 UF, 221 

LinearprobingHashST, 470 VisualAccumulator, 95 

LookupCSV, 495 WeightedQuickUnionUF, 228 

LookupIndex, 499 WhiteFilter, 491 

LRS, 880 Whitelist, 99 

LSD，707 Properties ( 性质) ，180 

LZW, 842, 844 3-sum, 180 

MaxpQ, 318 Boyer-Moore algorithm ( Boyer-Moore 算法 ) ，773 
Merge, 271,273 insertion sort ( 插 人 排序 ) ，255 

MergeBU, 278 quicksort ( 快速 排序 ) ，343 

MSD, 712 Rabin-Kamp algorithm ( Rabin-Kar 算法 ) ，778 
Multiway, 322 red-black BST ( 红 黑 二 又 查找 树 ) ，445 
NFA，799, 802 selection sort ( 选择 排序 ) ，255 

PictureDump, 814 separate-chaining ( 拉链 法 ) ，467 

PrimMST, 622 shellsort ( 希 尔 排序 ) ，262 

Queue，151 versus proposition ( 性 质 与 命题 ) ，183 

Quick, 289, 291 Propositions ( 命题) ，182 

Quick3string, 720 2-3 search tree (2-3 树 ) ，429 

Quick3way, 299 3-sum, 182 

RabinKarp, 777 3-way quicksort ( 三 向 快速 排序 )，301 
RedBlackBST, 439 3-way string quicksort ( 3- 向 字符 串 快速 排序 ) ，723 
ResizingArrayQueue, 140 arbitrage ( 套 汇 ) ，681 

ResizingArrayStack, 141 B-tree (B- 树 ) ，871 

Reverse, 127 Bellman-Ford, 671, 673 

RLE, 824 binary heap ( 二 叉 堆 ) ，319 

Rolls, 72 inary search ( 二 分 查找 ) ，383 

Selection, 249 BST (二 叉 查找 树 ) ，403-404, 412 
SeparateChainingHashST, 465 breadth-first search ( 广度 优先 搜索 ) ，541 
SequentialSearchST, 375 brute substring search ( 暴力 子 字符 串 查 找 ) ，761 
SET, 489 叉 查找 树 ) ，314 
She11，259 connected components ( 连通 分 量 ) ，546 
SortCompare, 256 Cook-Levin theorem ( Cook-Levin 定理 ) ，918 
SparseVector, 503 critical path method ( 关键 路 径 法 ) ，666 

Stack, 149 zut property( 切 分 定理 ) ，606 
StaticSETofInts, 99 DFS ( 深度 优先 搜索 ) ，531, 537, 570 

Stats, 125 Dijkstra's algorithm ( Dijkstra 算法 ) ，652, 654 
Stopwatch, 175 flow conservation ( 流量 守恒 ) ，893 
SuffixArray，883 Ford-Fulkerson ( Ford-Fulkerson 算法 ) ，900-901 
SymbolGraph，552 generic shortest-paths ( 通用 最 短路 径 ) ，651 
ThreeSum, 173 greedy MST algorithm ( 贪心 最 小 生成 树 算法 ) ，607 
ThreeSumFast, 190 heapsort ( 堆 排序 ) ，323, 326 

TopM，311 Huffman algorithm ( 霍 夫 曼 算法 ) ，833 
Topological，581 index priority queue ( 索引 优先 队列 ) ，321 
Transaction, 340 insertion sort ( 插入 排序 ) ，250, 252 
TransitiveClosure, 593 integer programming ( 整数 规划 ) ，917 
TrieST，737-741 key-indexed counting ( 键 索引 计数 法 ) ，705 
TST, 747 Knuth-Morris-Pratt, 769 

TwoColor, 547 Kosaraju's algorithm ( Kosaraju 算法 ) ，588, 590 


TwoSumFast, 189 Kmuskal's algorithm ( Kruskal 算法 ) ，624, 625 


linear-probing hash table ( 线性 探测 散 列 表 ) ，475 
linear programming ( 线性 规划 ) ，908 
longest paths in DAG ( 有 向 无 环 图 中 的 最 长 路 径 ) ，661 
longest repeated substring ( 最 长 重复 子 字符 串 ) ，885 
LSD string sort ( 低位 优先 的 字符 串 排序 ) ，706, 709 
maxflow-mincut theorem ( 最 大 流 - 最 小 切 分 定理 ) ， 
894 
maxflow reductions ( 最 大 流 消 减 ) ，906 
mergesort ( 合并 排序 ) ，272, 279, 282 
MSD string sort ( 高 位 优先 的 字符 串 排序 ) ，717, 718 
negative cycles ( 负 权重 环 ) ，669 
parallel job scheduling with relative deadlines ( 相对 最 后 
期 限 限 制 下 的 并 行 任务 调度 问题 ) ，667 
particle collision ( 粒子 的 相互 碰撞 ) ，865 
Prim'salgorithm ( Prim 算法 ) ，616, 618, 623 
quick-find algorithm ( quick-find 算法 ) ，223 
quicksort ( 快速 排序 ) ，293-295 
quick-union algorithm ( quick-union 算法 ) ，226 
red-black BST ( 红 黑 二 叉 查 找 树 ) ，444, 447 
regular expression ( 正则 表达 式 ) ，799, 804 
R-way trie ( R- 向 单词 查找 树 ) ，742, 743, 744 
selection sort ( 选择 排序 ) ，248 
separate-chaining ( 拉链 法 ) ，466, 475 
sequential search ( 顺序 查找 ) ，376 
shortest paths in DAG ( 有 向 无 环 图 中 的 最 短路 径 ) ， 
658 
shortest-paths optimality ( 最 短路 径 最 优 性 条 件 ) ，65U 
shortest paths reductions ( 最 短路 径 归 约 ) ，905 
sorting lower bound ( 排序 下 界 ) ，280, 300 
sorting reductions (排序 问题 ) ，903 
su 全 x array ( 后 级 数组 ) ，882 
temary search trie ( 三 向 单词 查找 树 ) ，749, 751 
topological order ( 拓 补 排序 ) ，578, 582 
universal compression ( 通用 压缩 ) ，816 
weighted quick-union ( 加 权 quick-union 算法 ) ，229 
protected modifier ( protected 修饰 符 ) ，110 
Protein folding ( 蛋白 质 折 惟 ) ，920 
pub1ic access modifier ( public 访问 修饰 符 ) ，110 
Pushdown stack ( 下 压 栈 ) ，127 
See also Stack data type ( 另 见 Stack data type ) 
Push operation ( 人 栈 操作 ) ，127 


es 


Quadratic running time ( 平方 级 别 的 运行 时 间 ) ，186 
Quantum computer ( 量子 计算 机 ) ，911 
Queue data type (Queue 数据 类 型 ) 

analysis of ( 分 析 ) ，198 


索引 


API, 126 
cireular linked list ( 环形 链表 ) ，165 
linked-list ( 链表 ) ，150-151 
ing-array ( 可 调整 大 小 的 数组 ) ，140 
-find algorithm ( Quick-find 算法 ) ，222-223 
Quicksort ( 快速 排序 ) ，288-307 
2-way partitioning ( 二 向 切 分 ) ，290 
3-way partitioning ( 三 向 切 分 ) ，298-301 
3-way string ( 三 向 字符 串 ) ，719 
analysis of ( 分 析 ) ，293-295 
and binary search trees ( 与 二 叉 查 找 树 ) ，403 
duplicate keys ( 重复 元 素 ) ，292 
median-of-3( 三 取样 切 分 ) ，296, 305 
median-of-5 ( 五 取样 切 分 ) ，305 
nonrecursive ( 非 递归 ) ，306 
random shuffie ( 随机 打 乱 ) ，292 
Quick-union ( Quick-union 算法 ) ，224-227 
path compression ( 路 径 压 缩 Quick-union 算法 ) ，231 
weighted ( 加 权 Quick-union 算法 ) ，227-230 
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Rabin-Karp algorithm ( Rebin-Karp 算法 ) ，774-778 
Rabin, M. 0., 759 
Radius of a graph ( 图 的 半径 ) ，559 
Radix ( 基数 ) ，700 
Radix sorting. See String sorting ( 基数 排序 法 ， 见 String 
sorting ) 
Random bag data type ( 随机 背包 数据 类 型 ) ，167 
Randomized algorithm ( 随机 化 算法 ) ，198 
Las Vegas ( 拉 斯 维 佳 斯 ) ，778 
Monte Carlo (蒙特 卡 洛 ) ，776 
quicksort ( 快速 排序 ) ，290, 307 
Rabin-Karp algorithm ( Rabin-Karp 算法 ) ，776 
3-way string quicksort ( 三 向 字符 串 快速 排序 ) ，722 
Random number ( 随机 数 ) ，30-32 
Random queue data type ( 随机 队列 数据 类 型 ) ，168 
Random string model ( 随机 字符 串 模型 )，716-717 
Range query ( 范围 查找 ) 
binary search tree ( 二 又 查找 树 ) ，412 
ordered symbol table ( 有 序 符号 表 ) ，368 
Rank (排名 ) 
binary search ( 二 分 查找 ) ，25, 378-381 
binary search tree ( 二 叉 查 找 树 ) ，408, 415 
ordered symbol table ( 有 序 符 号 表 ) ，367 
sufx array ( 后 统 数 组 ) ，879 
Reachability ( 可 达 性 ) ，570-572, 590 
Reachable vertex ( 可 达 顶 点 ) ，567 
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Recurrence relation 
binary search ( 二 分 查找 ) ，383 
mergesort ( 合并 排序 ) ，272 
quicksort ( 快速 排序 ) ，293 
Recursion (递归 ) ，25 
See also Base case ( 另 见 Base case ) ; 
See also Recursion ( 另 见 Recursion ) 
binary search ( 二 分 查找 ) ，25, 380 
binary search tree，401 
depth-first search ( 深度 优先 搜索 ) ，531 
Euclid's algorithm ( 欧 几 里 德 算法 ) ，4 
Fibonacci numbers ( 斐 波 纳 契 数 ) ，57 
mergesort ( 合并 排序 ) ，272 
quicksort ( 快速 排序 ) ，289 
Red-black BST ( 红 黑 二 又 查找 树 ) ，432-447 
and 2-3 search tree ( 与 2-3 查找 树 ) ，432 
analysis of ( 分 析 红 黑 BST ) ，444-447 
color fip ( 颜色 转换 ) ，436 
color representation ( 颜色 表示 ) ，433 
defined (定义 ) ，432 
delete the maximum ( 删除 最 大 元 素 ) ，454 
delete the minimum ( 删除 最 小 元 素 ) ，453 
deletion ( 刷 除 元 素 ) ，441-443, 455 
implementation ( 实现 ) ，439 
insertion ( 搬入 ) ，437-439 
left-leaning ( 左 链接 ) ，432 
perfect black balance( 完美 黑色 平衡 ) ，432 
rotation ( 旋转) ，433-434 
search ( 查找 ) ，432 
Redirection ( 重 定向 ) ，40 
Reduction ( 问题 归 约 ) ，903-909 
defined (定义 ) ，903 
polynomial-time ( 多 项 式 时 间 ) ，916 
linear programming ( 线性 归 划 ) ，907-909 
maxflow ( 最 大 流量 ) ，905-907 
priority queue ( 优先 队列 ) ，345 
shortest-paths ( 最 短路 径 ) ，904-905 
sorting (排序) ，344-347, 903-904 
Reference (引用 ) ，67 
Reference type ( 引用 类 型 ) ，64 
Reflexive relation ( 自 反 关系 ) ，102, 216, 247, 584 
Regular expression ( 正则 表达 式 ) ，82, 788 
building an NFA ( 构造 NFA ) ，800-804 
closure operation ( 闭 包 操作 ) ，789 
concatenation operation( 连接 操作 ) ，789 
defined (定义 ) ，790 
epsilon-transition ( e- 转换 ) ，795 
match transition ( 匹配 转换 ) ，795 
nondeterministic finite-state automaton ( 非 确定 有 限 状 





态 自 动机 ) ,794-799 
or operation ( 或 操作 ) ，789 
parentheses (括号 ) ，789 
NNsr，82 
shortcuts ( 缩 略 写法 ) ，791 
simulating an NFA ( NFA 的 模拟 ) ，797-799 
Rehashing ( 重新 散 列 ) ，474 
Relation (关系 ) 
antisymmetric ( 反对 称 性 ) ，247 
equivalence ( 等 价 性 ) ，102, 216, 584 
reflexive ( 自 反 性 ) ，102, 216, 247, 584 
symmetric ( 对 称 性 ) ，102, 216, 584 
total order ( 完整 的 比较 序列 ) ，247 
transitive ( 传递 性 ) ，102, 216, 247, 584 
Residual network ( 剩余 网 络 ) ，895-897 
Resizing array ( 可 调整 大 小 的 数组 ) ，136-137 
binary heap ( 二 又 堆 ) ，320 
hash table ( 散 列表 ) ，474-475 
queue (队列 ) ，140 
stack ( 栈 ) ，136 
Retum value ( 返回 值 ) ，22 
Reverese postorder traversal ( 逆 后 序 遍 历 ) ，578 
Reverse ( 反 向 ， 逆 向 ) 
alinked list ( 将 链表 反 转 ) ，165-166 
an array ( 颠倒 数组 元 素 的 顺序 ) ，21 
armay iterator ( 数组 反 向 迭代 器 ) ，139 
with a stack ( 将 栈 中 的 元 素 道 序 排列 ) ，127 
Reverse-delete algorithm ( 逆向 删除 算法 ) ，633 
Reverse graph ( 反 转 图 ) ，586 
Reverse postorder ( 道 后 序 ) ，578 
Ring buffer data type ( 环形 缓冲 区 数据 类 型 ) ，169 
RLE. See Run-length encoding 
Robson, 工 ，412 
Rooted tree ( 一 棵 树 ) ，640 


Rotation ina BST ( BST 中 的 旋转 操作 ) ，433-434, 452 


(游程 编码 ) ，822-825 
间 ) ，172-173 
analysis of ( 分 析 运 行 时 间 ) ，176 
constant ( 常数 级 别 的 运行 时 间 ) ，186 
cubic (立方 级 别 的 运行 时 间 ) ，186 
doubling ratio ( 倍率 ) ，192 

exponential ( 指数 级 别 的 运行 时 间 ) ，186 
inner loop ( 内 循环 ) ，180 

linear ( 线性 级 别 的 运行 时 间 ) ，186 
logarithmic ( 对 数 级 别 的 运行 时 间 ) ，186 
measuring ( 测量 准确 的 运行 时 间 ) ，174 
order of growth ( 运行 时 间 的 增长 数量 级 ) ，179 
quadratic ( 立方 级 别 的 运行 时 间 ) ，186 
tilde approximation ( 近似 ) ，178-179 









Run-time error See Error; See also Exception ( 运行 时 间 错 
误 ， 见 Emor， 另 见 Exception ) 

R-way trie ( R 向 单词 查找 树 ) ，730-744 
Alphabet ( 字母 表 ) ，741 
analysis of ( 分 析 ) ，742-743 
collecting keys ( 查找 所 有 键 ) ，738 
deletion ( 删除 ) ，740 
insertion (插入 ) ，734 
longest prefix ( 最 长 前 组 ) ，739 
memory usage of ( 内 存 使 用 空间 ) ，744 
one-way branching ( 单 向 分 支 ) ，744-745， 
representation ( 表示 ) ，734 
search ( 查找) ，732-733 
wildcard match ( 通配符 匹配 ) ，739 


S 


Safe pointer ( 安全 指针 ) ，112 
Sample mean ( 采样 期 望 值 ) ，30 
Samplesort ( 取样 排序 ) ，306 
Sample standard deviation ( 采样 标准 差 ) ，30 
Sample variance (采样 ) ，30 
Scheduling ( 调度 ) 
critical-path method ( 关键 路 秆 法 ) ，664 -666 
load-balancing problem ( 负载 均衡 问题 ) ，349 
LPT first ( 最 大 优先 ) ，349 
parallel precedence-constrained ( 优先 级 限制 下 的 并 
行 ) ，663-667 
Precedence constraint ( 优先 级 限制 ) ，574-575 
relative deadlines ( 相对 最 后 期 限 ) ，666 
SPT first ( 最 小 优先 ) ，349 
Scientific method ( 科学 方法 ) ，172 
Scope of a variable ( 变量 作用 域 ) ，14, 87 
Search hit ( 查找 命中 ) ，376 
Searching ( 查找 ) ，360-513. See also Symbol table ( 另 
见 Symbol table ) 
Search miss ( 查找 未 命中 ) ，376 
Search problem ( 搜索 问题 ) ，912 
Sedgewick, R.，298 
Selection (选择 ) ，345 
binary search tree ( 二 又 查找 树 ) ，406 
ordered symbol table ( 有 序 符号 表 ) ，367 
suffix array (后缀 数组 ) ，879 
Selection client ( 选择 用 例 ) ，249 
Selection sort ( 选择 排序 ) ，248-249 
Self-loop ( 自 环 ) ，518, 566, 612, 640 
Separate-chaining ( 拉链 法 ) ，464-468 
Sequential allocation ( 顺序 存储 ) ，156 


Sequential search ( 顺序 查找 ) ，374-377 
Set data type ( Set 数据 类 型 ) ，489-491 
Shannon entropy ( 香农 信息 量 ) ，300-301 
Shellsort ( 希 尔 排序 ) ，258-262 
Shortest ancestral path ( 最 短 先导 路 径 ) ，598 
Shortest augmenting path ( 最 短 增 广 路 径 ) ，897 
Shortest path ( 最 短路 径 ) ，638 
Shortest paths problem ( 最 短路 径 问 题 ) ，638-693 
all-pairs ( 顶点 对 ) ，656 
arbitrage detection ( 套 汇 检测 ) ，679-681 
Beliman-Ford ( Beliman-Ford 算法 ) ，668-678 
bitonic ( 双 调 ) ，689 
bottleneck ( 瓶颈) ，690 
certification ( 验证 ) ，651 
critical edge ( 关键 边 ) ，690 
Dijkstra’s algorithm ( Dijkstra 算法 ) ，652-657 
edge relaxation ( 边 放松 ) ，646-647 
edge-weighted DAG ( 加 权 有 向 无 环 图 ) ，658-667 
generic algorithm ( 通用 算法 ) ，651 
ineligible edge ( 无效 边 ) ，646 
in Euclid>an graphs ( 在 欧 拉 图 中 ) ，656 
monotonic ( 单调 ) ，689 
negative cycle ( 负 权重 环 ) ，669 
Negative cycle detection ( 负 权重 环 检测 ) ，670 
negative weights ( 负 权重 ) ，668-681 
optimality conditions ( 最 优 条 件 ) ，650 
parent-link ( 父 结 点 的 链接 ) ，640 
reduction ( 问题 归 约 ) ，904-905 
shortest-paths tree ( 最 短路 径 树 ) ，640 
single-source ( 单 点 ) ，639, 654 
souree-sink ( 给 定 两 点 ) ，656 
undirected graph ( 无 向 图 ) ，654 
vertex relaxation ( 顶点 放松 ) ，648 
Shortest-processing-time-first rule ( 最 小 优先 法 则 ) ， 
349, 355 
Short primitive data type ( short 原始 数据 类 型 ) ，13 
Shuffling ( 打 乱 ) 
alinked list ( 打 乱 链 表 ) ，286 
an array ( 打 乱 数组 ) ，32 
quicksort ( 打 乱 快速 排序 结果 ) ，292 
Side effect ( 副作用 ) ，22, 108 
Signature ( 签名 ) 
instance method ( 实例 方法 签名 ) ，86 
static method ( 静态 方法 签名 ) ，22 
Simple digraph ( 简单 有 向 图 ) ，567 
Simple graph ( 简单 图 ) ，518 
Simplex algorithm ( 单纯 形 法 ) ，909 
Single-source problems ( 单 点 问题 ) 
connectivity ( 连通 性 ) ，556 
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directed paths ( 有 向 路 径 ) ，573 
longest paths in DAG ( 有 向 无 环 图 中 的 最 长 路 径 )， 
661 
paths ( 路径) ，534 
reachability ( 可 达 性 ) ，570 
shortest directed paths ( 最 短 有 向 路 径 ) ，573 
shortest paths in undirected graphs ( 无 向 图 中 的 最 短路 
径 ) ，654, 904 
shortest paths ( 最 短路 径 ) ，538, 639 
Social network ( 社交 网 络 ) ，517 
Software cache (缓存 ) ，391, 451, 462 
Sollin, M., 628 
Sorting ( 排序 ) ，242-359 
See also String sorting ( 另 见 字符 串 排序 ) 
3-way quicksort ( 三 向 快速 排序 ) ，298-301 
binary search tree ( 二 又 查找 树 ) ，412 
certification ( 认证 ) ，246, 265 
Comparable, 246-247 
compare-based ( 基于 比较 的 排序 算法 ) ，279 
complexity of ( 排序 复杂 性 ) ，279-282 
cost model ( 排序 的 成 本 模型 ) ，246 
entropy-optimal ( 平均 信息 量 最 优 的 排序 ) ，296-301 
extra memory ( 烽 外 的 内 存 使 用 ) ，246 
heapsort ( 堆 排 序 ) ，323-327 
indirect ( 间接 排序 ) ，286 
in-place ( 原 地 排序 ) ，246 
insertion sort ( 插 人 排序 ) ，250-252 
inversion ( 反 向 排序 ) ，252 
lower bound (下界 ) ，279-282, 306 
mergesort ( 合并 排序 ) ，270-288 
partially-sorted array ( 部 分 有 序 的 数组 ) ，252 
pointer ( 指针 ) ，338 
primitive types ( 原始 数据 类 型 ) ，343 
quicksort ( 快速 排序 ) ，288-307 
reduction ( 归 约 问题 ) ，903-904 
reductions ( 归 约 ) ，344-347 
selection sort ( 选择 排序 ) ，248-250 
shellsort ( 希 尔 排序 ) ，258-262 
stability ( 稳定 性 ) ，341 
suffix array ( 后 数 组 ) ，875-885 
system sort ( 系统 排序 ) ，343 
Source-sink shortest paths ( 给 定 两 点 的 最 短路 径 ) ，656 
Spanning forest ( 生成 森林 ) ，520 
Spanning tree ( 生成 树 ) ，520, 604 
Sparse graph ( 稀疏 图 ) ，520 
Sparse matrix ( 稀 玖 和 矩阵) ，510 
Sparse vector ( 稀 朴 向 量 ) ，502-505 
Specification problem ( 说 明 书 问题 ) ，97 
SPT See Shortest paths tree; 





See also Shortest-processing-time-first mule ( 最 短路 
径 树 ， 见 Shortest paths tree， 另 见 Shortest- 
processing-time-first rul ) 

st-cut ( st- 切 分 ) ，892 
st-flow ( st- 流量 配置 ) ，888 
st-flow network ( st- 流量 网 络 ) ，888 
Stability (稳定 性 ) ，341, 355 
insertion sort ( 插入 排序 ) ，341 
key-indexed counting ( 键 索引 计数 法 ) ，705 
LSD string sort ( 低位 优先 的 字符 串 排序 ) ，706 
mergesort ( 合并 排序 ) ，341 
priority queue ( 优先 队列 ) ，356 
Stack data type ( 栈 数据 类 型 ) ，127 
analysis of ( 分 析 栈 ) ，198, 199 
array implementation ( 实现 保存 在 栈 中 的 数组 ) ，132 
fixed-capacity ( 定 容 栈 ) ，132-133 
Beneric ( 泛 型 ) ，134 
iteration ( 迭代 ) ，138-140 
linked-list (链表 ) ，147-149 
resizing array ( 可 调整 大 小 的 数组 ) ，136 
Standard deviation ( 标准 差 ) ，30 
Standard drawing ( 标准 图 像 ) ，36, 42-45 
Standard input ( 标准 输入 ) ，36, 39 
Standard libraries ( 标准 库 ) ，30 
Draw, 82-83 
In, 41, 82-83 
Out, 41,82-83 
StdDraw, 43 
StdIn, 39 
StdOut, 37 
StdRandom, 30 
Stdstats, 30 
Stopwatch, 174-175 
Standard output ( 标准 输出 ) ，36, 37-38 
Static method ( 静态 方法 ) ，22-25 
argument ( 参数 ) ，22 
defining a ( 定义 静态 方法 ) ，22 
invoking a ( 调用 静态 方法 ) ，22 
overloaded ( 重 载 静态 方法 ) ，24 
pass by value ( 按 值 传递 ) ，24 
recursive (递归 ) ,25 
retum statement ( 返回 语句 ) ，24 
retum value ( 返回 值 ) ，22 
side effect ( 副作用 ) ，22, 24 
signature (签名 ) ，22 
Static variable ( 静态 变量 ) ，113 
Statistics ( 统计 学 ) 
chi-square ( 卡 方 检验 ) ，483 
median ( 中 位 数 ) ，345 





minimum and maximum ( 最 小 值 和 最 大 值 ) ，30 
order (顺序 ) ，345 
sample mean (采样 期 望 值 ) ，30, 125 
sample standard deviation ( 采样 标准 差 ) ，30 
sample variance ( 采样 方差 ) ，30, 125 
StdDraw library, 43 
StdIn library, 39 
Stdout library, 37 
StdRandom library, 30 
StdStats library, 30 
Steque data type ( Steque 数据 类 型 ) ，167, 212 
Stirlings approximation ( 斯 特 灵 公式 ) ，185 
Stopwatch data type ( Stopwatch 数据 类 型 ) ，174_175 
String data type ( 字符 串 数据 类 型 ) ，34, 80-81 
API, 80 
characters ( 字符 ) ，696 
charAt() method ( charAt() 方法 ) ，696 
concatenation ( 字符 串 的 连接 ) ，34, 697 
conversion ( 字符 品类 型 转换 ) ，102 
immutability ( 不 可 变性 ) ，696 
indexing ( 索引 ) ，696 
index0f() method ( index0f0 方法 ) ，779 
length ( 字符 串 长 度 ) ，696 
Tength() method ( lengthO 方法 ) ，696 
literal (字面 量 ) ，34 
memory usage of ( 内 存 使 用 ) ，202 
+ operator (+ 运算 符 ) ，80, 697 
substring extraction ( 提取 子 字符 串 ) ，696 
substring() method ( substring() 方法 ) ，696 
String processing ( 字符 串 处 理 ) ，80-81, 694-851 
data compression ( 数据 压缩 ) ，810-851 
regular expression ( 正则 表达 式 ) ，78& 
sorting ( 排序 ) ，702-729 
substring search ( 子 字符 串 查 找 ) ，758-785 
su 镍 x array (后缀 数组 ) ，875-885 
tries ( 单词 查找 树 ) ，730-757 
String search. See Substring search; See also Trie ( 字符 串 
查找 ， 见 Substring search， 另 见 Trie ) 
String sorting ( 字符 串 排序 ) ，702-729 
3-way quicksort ( 三 向 快速 排序 ) ，719-723 
key-indexed counting ( 键 索引 计数 法 ) ，703 
LSD string sort ( 低位 优先 的 字符 串 排序 ) ，706-709 
MSD string sort ( 高 位 优先 的 字符 串 排序 ) ，710-718 
Strong component ( 强 连通 分 量 ) ，584 
Strong connectivity ( 强 连 通 性 ) ，584-591 
Strongly connected component. Sce Strong component ( 强 
连通 的 分 量 ， 见 Strong component ) 
Strongly connected relation ( 强 连通 的 关系 ) ，584 
Strongly typed language ( 强 类 型 语言 ) ，14 


Subclass ( 子 类 ) ，101 
Subgraph ( 子 图 ) ，519 
Sublinear running time ( 次 线性 运行 时 间 ) ，716, 779 
Substring extraction ( 子 字符 串 提取 ) 
memory usage of ( 内 存 使 用 ) ，202-204 
substring() method ( substring() 方法 ) ，696 
Substring search ( 子 字符 串 查找 ) ，758-785 
Boyer-Moore ( Boyer-Moore 算法 ) ，770-773 
brute-force ( 暴力 查找 ) ，760-761 
index0fQ method ( indexofO 方法 ) ，779 
Knuth-Morris-Pratt, 762-769 
Rabin-Karp, 774-778 
Subtyping ( 子 类 型 ) ，100 
Suffix array ( 后 级 数组 ) ，875-885 
Suffix array data type ( 后 组 数组 数据 类 型 ) ，879 
Suffix-free code (后继 码 ) ，847 
Superclass ( 父 类 ) ，101 
Symbol digraph ( 符号 有 向 图 ) ，581 
Symbol graph ( 符号 图 ) ，548-555 
Symbol table ( 符号 表 ) ，360-513 
2-3 search tree ( 2-3 查找 树 ) ，424-431 
API, 363, 366 
associative array ( 关联 数组 ) ，363 
balanced search tree ( 平衡 查找 树 ) ，424-457 
binary search ( 二 分 查找 ) ，378-384 
binary search tree ( 二 叉 查找 树 ) ，396-423 
B-tree (B- 树 ) ，866-874 
cost model ( 成 本 模型 ) ，369 
defined ( 符号 表 的 定义 ) ，362 
duplicate key policy ( 重复 元 素 ) ，363 
floor snd ceiling ( 向 上 取 整 和 向 下 取 整 )，367 
hash table ( 散 列表 ) ，458-485 
insertion ( 插入 ) ，362 
key equality ( 等 值 键 ) ，365 
lazy deletion ( 延 时 删除 ) ，364 
linear-probing ( 线性 探测 ) ，469-474 
minimum and maximum ( 最 小 元 素 和 最 大 元 素 ) ，367 
mull value (nu11 值 ) ，364 
ordered ( 有 序 符号 表 ) ，366-369 
ordered array ( 有 序数 组 ) ，378 
Tange query ( 范围 查找 ) ，368 
rank and selection ( 排名 和 选择 ) ，367 
red-black BST ( 红 冉 二 又 查找 树 ) ，432-447 
R-way trie ( R 向 单词 查找 树 ) ，732-745 
search ( 查找) ，362 
separate-chaining ( 拉链 法 ) ，464-468 
sequential search ( 顺序 查找 ) ，374 
string keys ( 字符 串 键 ) ，730-757 
temary search trie ( 三 向 单词 查找 树 ) ，746-751 
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trie (单词 查找 树 ) ，730-757 

unordered linked list ( 无 序 链表 ) ，374 
Symmetric order ( 树 的 对 称 性 ) ，396 
Symmetric relation ( 对 称 关系 ) ，102, 216, 584 
Szpankowski, W., 882 


T 


Tail vertex ( 顶点 的 尾 ) ，566 
Tale of Two Cities ( 双城记 ) ，371 
Tandem repeat ( 串联 重复 查找 ) ，784 
Tarjan, R. E., 590, 628 
Terminal window ( 终端 窗口 ) ，10, 36 
Ternary search trie ( 三 向 单词 查找 树 ) ，746-751 
alphabet ( 字母 表 ) ，750 
analysis of ( 分析 ) ，749 
collecting keys ( 查找 所 有 键 ) ，750 
deletion ( 删除 ) ，750 
insertion ( 插入) ，746 
one-way branching ( 单 向 分 支 ) ，751, 755 
prefix match ( 匹配 前 绥 ) ，750 
search ( 查找) ，746 
wildcard match ( 通配符 匹配 ) ，750 
Theseus ( 忒 修 斯 ) ，530 
this reference ( this 引用 ) ，87 
Threading ( 线性 符号 表 ) ，420 
Tilde notation ( 近似 ) ，178, 206 
Time-driven simulation ( 时 间 驱 动 模拟 ) ，856 
Timing a program ( 为 应 用 程序 计时 ) ，174-175 
Top-down 2-3-4 tree ( 自 顶 向 下 的 2-3-4 树 ) ，441 
Top-down mergesort ( 自 顶 向 下 的 合并 排序 )，272 
Topological sort ( 拓 补 排序 ) ，574-583 
depth-first search ( 深度 优先 搜索 ) ，578 
queue-based algorithm ( 基于 队列 的 算法 ) ，599 
toString() method ( toStringO 方法 ) ，66, 102 
Total order ( 完整 的 比较 序列 ) ，247 
Transaction data type ( 事务 数据 类 型 ) ，78-79 
compare() ，340 
compareTo() ，266, 337 
hashCode(), 462 
Transitive closure ( 传递 闭 包 ) ，592 
Transitive relation ( 传递 关系 ) ，102, 216, 247, 584 
Transpose a matrix ( 转 置 矩阵 ) ，56 
Tree ( 树 ) 
2-3 search tree ( 2-3 查找 树 ) 
See 2-3 search tree ( 见 2-3 search tree ) 
binary, See Binary tree ( 二 进 制 ， 见 Binary tree ) 
binary search tree ( 二 叉 查 找 树 ) 


See Binary search tree ( 见 Binary search tree ) 
balanced search tree. See Balanced search tree ( 平衡 查 
找 树 ， 见 Balanced search tree ) 
binomial ( 二 项 树 ) ，237 
depth ofa node ( 树 中 的 节点 深度 ) ，226 
height of ( 树 的 高 度 ) ，226 
inorder traversal ( 中 序 遍 历 ) ，412 
min spanning tree. See Minimum spanning tree ( 最 小 生 
成 树 ， 见 Minimum spanning tree ) 
parent-link ( 父 结 点 的 链接 ) ，535, 539 
preorder traversal ( 前 序 遍 历 ) ，834 
rooted ( 根 结 点 ) ，640 
size ( 树 的 大 小 ) ，226 
spanning tree.See Spanning tree ( 生成 树 ， 见 Spanning 
tee) 
undirected graph ( 无 向 图 ) ，520 
union-find ( union-find 算法 ) ，224-226 
Tremaux exploration ( Tremaux 搜索 ) ，530 
Triangular sum ( 等 差 数列 之 和 ) ，185 
Trie ( 单词 查找 树 ) ，730-757 
See also R-way trie; 
See also Temary search trie ( 见 R-way trie， 另 见 
Temary search trie ) 
collecting keys ( 查找 所 有 键 ) ，731 
Lempel-Ziv-Welch, 840 
longest prefix match ( 匹配 最 长 前 级 ) ，731, 842 
one-way branching ( 单 向 分 支 ) ，744-745, 751, 755 
prefix-free code ( 前 级 代码 ) ，827 
preorder traversal ( 前 序 遍 历 ) ，834 
reading and writing ( 读 和 写 ) ，834-835 
wildcard match ( 通配符 匹配 ) ，731 
Tufte plot (Tufte 图 ) ，456 
Tukev ninther，306 
Turing,A.，910 
Turing machine ( 图 灵机 ) ，910 
Church-Turing thesis ( 丘 奇 ~ 图 灵 论 题 ) ，910 
computability ( 可 计算 性 ) ，910 
nondeterministic ( 非 确定 性 的 ) ，914 
universality ( 普遍 性 ) ，910 
Type conversion ( 类 型 转换 ) ，13 
Type erasure ( 类 型 擦 除 ) ，158 
Type parameter ( 类 型 参数 ) ，122, 134 





Undecidability ( 不 可 判定 性 ) ，97, 817 
Undirected graph ( 无 向 图 ) 
acyclic (无 环 ) ，520 


adjacency-lists ( 邻接 表 ) ，524 
adjacency-matrix ( 邻接 矩阵 ) ，524 
adjacency-sets ( 邻接 集 ) ，527 
adjacent vertex ( 邻接 项 点 ) ，519 
articulation point ( 关节 点 ) ，562 
biconnected ( 双向 连通 的 ) ，562 
bipartite ( 二 分 的 ) ，521, 546-547, 562 
breadth-first search ( 广度 优先 搜索 ) ，538-542 
bridge ( 桥 ) ，562 
center (中 点 ) ，559 
connected ( 连通 的 ) ，519 
connected component ( 连通 分 量 ) ，519 
connected to relation ( 连通 关系 ) ，519 
connectivity ( 连通 性 ) ，534, 543_546 
eyele ( 环 ) ,519 
cycle detection ( 环 检测 ) ，546-547 
defined (定义 ) ，518 
degree ( 度 ) ，519 
dense ( 稠密) ，520 
depth-first search ( 深度 优先 搜索 ) ，530_533 
diameter ( 直径 ) ，559 
edge ( 边 ) ，518 
edge-connected ( 边 连通 的 ) ，562 
edge-weighted ( 加 权 ) 
See Edge-weighted graph ( 见 Edge-weighted graph ) 
Euler tour ( 欧 拉 回 路 ) ，562 
forest ( 森林 ) ，520 
girth ( 周 长 ) ，559 
Hamilton tour ( 汉密尔顿 回路 ) ，562 
interval graph ( 区 间 图 ) ，564 
isomorphism ( 同 构 ) ，561 
multigraph ( 多 重 图 ) ，518 
odd cycle detection ( 长 度 为 奇数 的 环 检测 ) ，562 
parallel edge ( 平行 边 ) ，518 
path ( 路径) ，519 
radius ( 半径) ，559 
self-loop ( 自 环 ) ，518 
simple ( 简单 ) ，518 
simple cycle ( 简单 环 ) ，519, 567 
simple path ( 简单 路 径 ) ，519 
single-source connectivity ( 单 点 连通 性 ) ，556 
single-source paths ( 单 点 路 径 ) ，534 
Single-souree shortest paths ( 单 点 最 短路 径 ) ，538 
spanning forest ( 生成 森林 ) ，520 
spanning tree ( 生成 树 ) ，520 
sparse ( 稀 琉 ) ，520 
subgraph ( 子 图 ) ，519 
tree ( 树 ) ，520 
two-colorability ( 两 种 颜色 着 色 ) ，546-547, 562 


vertex (顶点 ) ，518 
weighted ( 权重 ) 
See Edge-weighted graph ( 见 Edge-weighted graph ) 
Unicode ( Unicode 编码 ) ，696 
Uniform hashing ( 均匀 散 列 ) ，463 
Union-find ( union-find 算法 ) ，216-241 
depth-first search ( 深度 优先 搜索 ) ，546 
binomial tree (二叉树 ) ，237 
Boruvka's algorithm ( Boruvka 算法 ) ，636 
dynamic connectivity ( 动态 连通 性 ) ，216 
forest-of-trees ( 森林 ) ，225 
Kmuskals algorithm ( Kruskal 算法 ) ，625 
parent-link ( 父 链接 ) ，225 
Path compression ( 路 径 压缩 ) ，231, 237 
quick-find ( quick-find 算法 ) ，222_223 
quick-union ( quick-union 算法 ) ，224_227 
weighted quick-find ( 加 权 quick-find 算法 ) ，236 
weighted quick-union ( 加 权 quick-union 算法 ) ，227_231 
weighted quick-union by height ( 根据 高 度 加 权 的 
quick-union 算法 ) ，237 
weighted quick-union with path compression ( 使 用 路 所 
压缩 的 加 权 quick-union 算法 ) ，237 
Uniquely decodable code ( 解码 方式 唯一 的 编码 ) ，826 
Unit testing ( 单元 测试 ) ，26 
Universal data compression ( 通用 数据 压缩 ) ，816 
Universality ( 通用 性 ) ，910 
Upper bound ( 上 界 ) ，206, 207, 281 


V 


Value type paramerer ( 值 类 型 参数 ) 
symbol table ( 符号 表 ) ，361 
trie ( 单词 查找 树 ) ，730 
Variable ( 变量 ) ，10 
Variable-length code ( 变 长 编码 ) ，826 
Variance ( 共 变 ) ，30 
Vector data type ( 向 量 数据 类 型 ) ，106 
Vertex (顶点 ) 
adjacent ( 邻接 ) ，519 
connected to relation ( 连通 关系 ) ，519 
degree of ( 度 ) ,519 
eccentricity ( 离心 率 ) ，559 
head and tail ( 头 和 尾 ) ，566 
indegree and outdegree ( 入 度 和 出 度 ) ，566 
reachable ( 可 达 ) ，567 
source (点 ) ，528 
Vertex cover problem ( 顶点 覆盖 问题 ) ，920 
Vertex relaxation ( 顶点 放松 ) ，648 
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Virtual terminal ( 虚拟 终端 ) ，10 
Vyssotsky's algorithm ( Vyssotsky 算法 ) ，633 


W 


Web search ( 网 络 搜索 ) ，496 
Weighted digraph. 
See Edge-weighted digraph ( 加 权 有 向 图 ， 见 Edge- 
weighted digraph ) 
Weighted edge ( 加 权 边 ) ，604, 638 
Weighted external path length ( 加 权 外 部 路 径 长 度 ) ，832 
Weighted graph. See Edge-weighted graph ( 加 权 图 ， 见 
Edge-weighted graph ) 
Weighted quick-union ( 加 权 quick-union 算法 ) ，227-231 
Weighted quick-union with path compression ( 使 用 路 径 不 
缩 的 加 权 quick-union 算法 ) ，237 


Weiner, P., 884 

Welch, T., 839 

while loop (while 循环 ) ，15 

Whitelist filter ( 白 名 单 过 滤器 ) ，8, 48-49, 99, 491 
Wide interface ( 宽 接 口 ) ，160, 557 

Wildcard character ( 通配符 ) ，791 

Wildcard match ( 通配符 匹配 )，750 

Worst-case guarantee ( 对 最 坏 情况 下 的 性 能 保证 ) ，197 
Wrapper type ( 封装 类 型 ) ，102, 122 


z 


Ziv 
Zero-based indexing ( 起 始 索 引 是 0) ，53 
Zipfslaw ( Zipf 法则 ) ，393 





